Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses 翻译?show markers from database翻译

Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses 翻译[Fredrikson等人,2014]首次在基因组隐私的背景下引入了MI攻

[Fredrikson et al. 2014] 首先在基因组隐私的背景下引入MI 攻击,表明可以通过最大化给定线性回归模型的后验概率来恢复遗传标记。随后的研究[Fredrikson et al. 2015; Song et al. 2019; Yang et al. 2019] 使用梯度下降等其他优化算法进一步扩展了MI 攻击。虽然上述方法对于传统ML 场景中的浅层网络和简单数据效果很好,但在攻击更深和更广泛的DNN 时非常有用,特别是在训练更复杂和高维数据(例如RGB 图像)时,其有效性会显着降低。

为了应对这一挑战,最近的研究做出了重大努力,并且在图像数据攻击方面取得了重大改进。生成对抗网络(GAN)[Goodfellow,2016]首先由[Zhang et al. 2020]引入用于模型反演,并且这些方法大多数使用GAN来改进图像重建,以获得更好的重建结果作为先验使用。分配。具体来说,[Zhang et al. 2015] 提出使用公开数据训练GAN 模型,以生成目标类别的高保真图像。由于将先验信息编码到训练好的GAN 模型中,重建性能得到了显着提高。此外,MI研究已扩展到自然语言处理(NLP)任务的隐私泄露风险[Carlini et al. 2019],尤其是ChatGPT等大规模语言模型(LLM)。尽管用户可以生成基于文本的查询并与ChatGPT 交互,但人们担心敏感信息可能会通过模型的响应无意中暴露[Nasr et al. 2023]。与此同时,用于训练图神经网络(GNN)的图数据也容易受到MI 威胁[Zhang et al. 2021]。为了保护训练数据免受强MI攻击,提出了一系列防御策略来增强训练模型的安全性。大多数这些技术通过在输出预测中添加扰动来防御MI 攻击[Yang et al. 2020]。另一方面,一些技术更喜欢将精心设计的机制集成到目标模型的训练过程中[Wang et al. 2021b]。

尽管来自不同模式的训练数据存在隐私问题,但目前还没有概述其进展的全面概述。最近的研究[Dibbo, 2023] 主要关注表和图像数据的MI 攻击的各种分类和挑战。此外,[Jegorova et al. 2022]简要介绍了推理阶段各类隐私攻击中一些具有代表性的MI攻击。相比之下,我们对跨多种模式和各种学习任务的DNN 的高级MI 攻击和防御进行了系统而彻底的回顾,提供了该领域的详细调查。

模型反演概述

模型反演的基本概念

模型反演[Fredrikson et al. 2014; Wang et al. 2021a] 是通过反演给定的预训练模型f 来恢复私有训练数据集X(图像、文本、图形等)的过程。针对的攻击类型。与仅揭示训练数据的部分信息的成员推理和属性推理攻击不同,MI 允许攻击者完全重建私有训练样本,这一点引起了越来越多的关注。

不同模态中的 MI

为了更好地理解不同模式之间的差异,我们根据现有的三种模式的MI 研究完善了总体概述。然后,我们按以下顺序详细介绍MI 的攻击和防御:图像(参见第3 节)、文本(参见第4 节)和图形(参见第5 节)。

学习任务:计算机视觉和图学习中的受害者模型主要用于分类任务。另一方面,大多数针对文本数据的攻击都是针对生成任务的语言模型。受害者模型的不同训练任务进一步导致不同的攻击策略。

攻击分类:为了更好地分析和比较不同的重建技术,我们通常根据攻击者的能力和知识将这三种模式技术分为白盒和黑盒配置。具体来说,白盒场景意味着攻击者可以完全访问目标模型的权重和输出。相反,在黑盒设置中,仅预测置信概率或硬标签可用。

考虑到不同模态之间的差异,我们进一步为每种模态提供更详细的MI 攻击概述或分类。在视觉任务中,MI 攻击被表述为优化问题。接下来,我们分解优化过程并总结典型攻击的主要特征如表1所示。由于文本生成模型的性质,NLP 领域出现了不同形式的攻击。我们根据获得重构句子的主要策略对三种范式进行分类:嵌入优化、令牌搜索和恶意提示设计。在图学习方面,研究人员研究了图数据的离散结构,并提出了强大的反演技术,可分为邻接优化、逆映射和关系推理。

防御的分类:MI攻击主要利用模型输出的丰富信息,或者受害者模型的输入和输出之间的相关性,因此各种防御方式主要是从这两个角度来提高安全性,因此可以统一分类为:两种:模型输出处理和鲁棒模型训练。

计算机视觉方面的模型反演攻击

本节主要介绍计算机视觉中模型反演的攻击与防御。

隐私图像重建

首先,我们阐明DNN 上MI 的一般威胁模型。为了更好地阐明这些方法的关键技术,我们分解了攻击范式,并从四个角度进行分析:生成模型、数据初始化、攻击过程和其他常用技术。 由于生成先验带来的显着改进,生成模型随后被纳入DNN 中MI 研究的基本范式中[Zhang et al. 2020; Yuan et al. 2023]。

图1 概述了典型的基于GAN 的模型反转攻击的威胁模型。给定一个用权重 参数化的图像分类器f 和经过训练的生成器G,攻击者尝试从用高斯分布初始化的潜在向量z 中恢复私有图像x*。

其中c 是目标类别,

表示分类损失, 是超参数。

先验知识的正则化(先验知识可以是关于数据分布的假设,或者是对模型参数的约束。在正则化过程中,这些先验知识被用作损失函数的一部分,通常采用惩罚项的形式。(编码为格式)。例如,鉴别器损失。第一项测量与私有数据的偏差,最后一项作为提高重建图像质量之前的图像。在发起攻击之前,攻击者要么训练一个特殊的生成器,要么使用预先训练的生成器作为目标图像的先验知识。接下来,我们利用生成器生成虚拟图像并将其输入到目标分类器。在恢复过程中,攻击者通过最小化等式中的损失函数来迭代更新潜在向量z。一旦获得最佳z*,就可以通过x*=G(z*) 生成与私有图像紧密对齐的重建图像。 (隐私图像重建的概念)

生成模型

早期研究通过直接搜索图像像素来进行MI 攻击,但这些攻击仅限于浅层网络和灰度图像。随后的工作通过利用强大的生成模型解决了这个问题,并在RGB 图像的DNN 方面取得了重大改进。具体来说,[Zhang 等人,2020;Chen 等人,2021;Nguyen 等人,2023a] 在具有与私有数据相似的图像结构的大型公共数据集上训练了GAN 模型。他们使用针对MI 场景定制的不同GAN 模型,并为生成对抗训练设计了特殊的损失函数。此外,这些方法通过利用目标模型的辅助信息进一步增强了攻击有效性。例如,从目标模型中提取的特征用于为生成器提供辅助知识[Nguyen et al. 2023a]。

然而,由于GAN训练的辅助数据集容量有限且质量较低,训练后的生成器只能重建6464的低分辨率图像。此外,进行对抗性训练的计算成本很高,并且需要大量时间。一种可能的解决方案是利用从大规模公共数据集中学习的大规模预训练GAN [An et al. 2022; Struppek et al. 2022]。与使用低质量辅助数据集手动训练的GAN 相比,这些预训练的生成器通常具有更复杂的结构,包含更丰富的语义信息,并且可以生成高达224 224 的高分辨率图像重建。 [Liu,2023]用条件扩散模型取代了GAN [Ho 和Salimans,2022]。具体来说,我们利用目标模型分类的伪标签作为指导去噪过程的条件。与之前基于GAN 的方法(例如LPIPS [Zhang et al. 2018])相比,这种方法显示出显着的改进,特别是在人类感知距离方面。

数据初始化

分辨率:表1总结了不同方法中使用的图像分辨率。 MI 攻击的难度很大程度上取决于恢复图像的分辨率,因为更多的图像像素意味着更多的参数需要优化。早期的MI 方法采用重建的低分辨率图像,例如GMI [Zhang et al. 2020] 和KEDMI [Chen et al. 2021]。为了能够将攻击应用于更高分辨率的图像,后续工作引入了更强大的GAN 模型(例如StyleGAN [Karras et al. 2019]),成功恢复了224224 分辨率的图像。

预处理:[Zhang et al. 2020; Chen et al. 2021] 从特定分布中随机采样,而[Yuan et al. 2022; Struppek et al. 2022] 我们强调一批潜在向量倾向于是产生更好的重建结果。具体来说,我们选择相应图像可以被牺牲模型正确分类的潜在向量作为目标标签。为了进一步增强预处理,[Ye et al. 2023] 优化潜在向量以获得L2 最小化距离。

攻击过程

白盒攻击:如表1 所示,白盒攻击通常将Momentum SGD 或Adam 优化器应用于反演。他们中的大多数使用根据交叉熵(CE)损失计算的梯度来搜索潜在代码。考虑到CE损失受到梯度消失问题的影响,研究人员使用Poincar损失[Struppek et al. 2022]或最大边界损失[Yuan et al. 2023]来缓解这个问题。此外,[Nguyen et al. 2023b]重新考虑了优化目标,并强调MI的根本目标是重建与目标类别高度一致的图像,而不是偏离非目标类别。 CE损失本质上结合了这两个目标,从而绕过了交叉熵损失的softmax函数,直接最大化目标类别的置信度,即我提出的负对数似然(NLL)损失。

如第1 节所述,引入各种正则化项作为先验知识,以确保生成图像的可靠性。一种典型的尝试是使用判别损失项。

。然而,[Struppek 等人,2022] 表明:

反演性能可能会降低,因为所得图像与公共数据分布而不是私有数据分布匹配。为了避免这种分布变化,后续的MI 方法不再使用这个损失项。 [Wang et al. 2021a] 将MI 攻击表述为变分推理过程,并引入KL 散度作为正则化,以更好地使用变分分布。

估计目标数据分布。 LOMMA [Nguyen 等人,2023b]

该术语充分利用目标模型的倒数第二层表示来作为重建样本特征与一般图像特征之间距离的度量。基于动态内存库设计新的正则化项[Qi et al. 2023]

为了增加反转图像的多样性,

分别表示类内多中心表示(IMR)损失和类间判别表示(IDR)损失。 IMR 为类内的图像提供多种独特的特征,以防止对特定图像特征的过度拟合。 IDR保留了每个类别的历史知识,并有利于重建具有更具辨别力的特征的图像。

与这些专注于实例级重建的方法不同,[Chen et al. 2021] 的目标是使用可学习的高斯分布恢复给定标签的私有数据分布。

。他们采用重新参数化技术使损失可微,并进一步优化 和。然后,攻击者可以直接从学习到的分布中采样来生成敏感图像。

黑盒攻击:与白盒配置不同,这些攻击无法访问目标模型内的信息。因此,不再可能使用反向传播操作来计算梯度。 [Yuan et al. 2022]提出了一种直接方法来解决这个问题。首先,我们从随机噪声中采样大量潜在向量,并选择产生预测为正确标签的图像的向量。仅根据鉴别器损失来优化所选向量。 [Han et al. 2023] 引入了一种基于强化学习的MI 攻击,该攻击利用信任评分来提供奖励,并使用软参与者关键(SAC) 算法来优化代理。

仅标签场景:BREPMI [Kahla et al. 2022] 使用梯度估计来解决仅可用硬标签的情况。通过使用半径为 的球体上的采样点对 单位向量 进行随机采样来估计潜在向量 的斜率。

:

这里,如果生成的图像被分类为目标类别,则(·)表示等于0的函数,否则等于-1。在优化过程中,BREPMI逐渐增加的值以准确估计斜率。 [Nguyen et al. 2023a] 通过反转多个替代模型代替黑盒受害者模型,将此问题转化为白盒场景。这涉及使用从受害者模型训练的ACGAN(生成对抗网络(GAN)——条件GAN(ACGAN)的变体)生成大量虚拟样本。然后使用这些虚拟样本作为牺牲模型的替代来训练多个分类器。 [Liu,2023] 使用带有伪标签的辅助数据集训练类条件扩散模型。训练好的扩散模型直接用于生成目标图像,无需进一步优化。

无梯度优化器:与上述方法正交,[An et al. 2022; Ye et al. 2023]考虑了无梯度优化方法,该方法使用当前种群的距离和方向信息并运行遗传算法。最佳势向量。

搜索空间:之前的大部分工作都集中在寻找GAN 的潜在空间 中的最佳向量。然而,[An et al. 2022] 表明,随着分辨率的增加,由于空间稀疏性,这种优化变得不够充分。 空间中的特征纠缠是进一步阻碍优化过程的另一个挑战,因为具有相似特征的图像可能不对应于相似的潜在向量。 StyleGAN [Karras et al. 2019] 通过映射网络Gmapping :ZW 将潜在空间转换为易于分离的W 空间。因此,W空间中的搜索可以缓解这些问题,并已被一系列后续研究所采用[Struppek et al. 2022; Ye et al. 2023]。考虑到W分布建模的困难,[An et al. 2022]引入了P空间的概念,即映射网络中最后一个LeakyReLU函数来约束目标分布中的最终W向量,提出了特征的概念。空间位于前面。首先,我们通过从 空间采样多个向量来计算P 空间中激活的均值 和方差。给定W 空间中的优化W,攻击者首先通过将W 投影到P 空间中来获得。然后 被限制在[,+] 范围内并重新投影到W 空间中。此操作保留了W 空间的样式控制功能,并确保这些控制保持在所需的分布范围内。

附加的通用功能

各种创新技术已在众多研究中得到探索和整合。接下来,我们将对一些常见机制进行详细回顾。

伪标签指导(伪标签是半监督学习方法中使用的一个术语,指的是当实际标签不可用时使用模型自己的预测作为标签。):伪标签用于训练生成器[Yuan。等人,2023;Liu,2023]和标识符[Chen 等人,2021]。具体来说,目标模型用于使用私有数据集标签对公共图像进行重新分类。由于目标模型是在私有数据集上进行训练的,因此使用伪标签可以利用私有训练数据中的附加信息,从而增强在这些辅助标记图像上训练的生成器或鉴别器的功能。

强化:许多研究将各种强化技术集成到MI 工作流程中,以提高攻击的有效性。 [Yuan et al. 2022] 采用顺序裁剪作为图像的数据增强,以改进初始潜在向量的选择。 [Struppek et al. 2022; Liu, 2023] 对重建结果进行图像变换,并根据目标模型的输出置信度选择结果。此外,[Yuan et al. 2023] 在将生成的图像输入到目标模型之前对其进行随机增强,以便在GAN 训练期间提供与真实图像更稳定的收敛。除了传统的数据增强之外,[Nguyen et al. 2023b]提出了一种称为模型增强的新方法。这涉及使用模型提取技术从目标模型训练多个辅助模型。在MI过程中,攻击者利用原始目标模型和训练后的辅助模型的集成来计算损失函数。通过加强代理模型,该策略减少了对目标模型的过度拟合,并鼓励恢复的图像捕获私有数据的更多独特特征。

模型蒸馏技术(modelstillation)是将知识从一个大型的、复杂的模型(通常称为“教师模型”或“源模型”)转移到一个更小、更简单的模型(称为“A”)。压缩和加速模型的方法。学生模型)。

结果选择:[Struppek et al. 2022]指出DNN常常对其预测表现出过度自信,从而导致攻击结果传播不良。具体来说,一些重建图像被目标模型以高置信度标记,但在用另一个模型评估时得分较低。为了克服这一挑战,[Struppek et al. 2022; Liu, 2023]在使用目标分类器进行分类之前对生成的图像应用数据增强。通过选择增强后置信度得分最高的结果,该方法比原始方法实现了更高的攻击精度和更好的传播。

抵御图像数据的MI攻击

模型输出处理。由于MI 攻击利用目标模型输出中的冗余信息,因此可行的防御策略是通过混淆输出的置信度分数来减少这种冗余。 [Yang et al. 2020] 将自动编码器训练为精炼器来处理置信向量并减少其方差。为了进一步提高自动编码器的能力,他们采用对抗性学习策略来优化净化器,同时联合训练其他反向模型作为对手。 [Wen et al. 2021] 通过最大化置信度分数上的MI 攻击误差来生成对抗性噪声,这进一步混淆了重建图像。精心设计的标签限定符还可以保持关键任务的准确性。 [Ye et al. 2022]设计了一种基于差分隐私的方法,将分数向量划分为多个子范围,并应用指数机制来替换和归一化每个子范围中的值Did。该机制在理论上被证明可以保证差分隐私并提高目标模型对MI 的鲁棒性。

鲁棒模型训练:MID [Wang et al. 2021b] 强调MI 攻击利用目标模型的输入X 和输出f。

因此,提出在训练过程中对X和Y之间的互信息进行惩罚。训练目标可以表示为:(在损失函数中添加近似互信息)

这里,y是真实标签,(,)表示主要任务损失,(,)是近似互信息,是平衡隐私和效用的系数。

然而,MID 在隐私和模型性能之间遇到了困境,因为第二项(近似互信息)与主要任务的丢失相冲突。 [Peng et al. 2022] 提出了双向依赖优化(BiDO)来解决这个问题。 BiDO 不是直接减少输入和输出之间的相关性,而是最大化底层表示和输出之间的依赖关系,同时最小化输入和底层表示之间的依赖关系。 [Gong et al. 2023]从另一个角度误导了攻击者。他们使用公共数据集来训练GAN 和公共分类器。然后,攻击者对受害者模型和公共分类器进行MI 攻击,生成私有和公共的假样本。然后,攻击者使用生成的假样本来微调受害者模型。这最小化了公共样本的分类损失,最大化了私人样本的分类损失。这会诱使攻击者翻转与私有图像显着不同的样本。

[Titcombe et al. 2021] 在将中间表示发送到计算服务器之前,通过向中间表示添加拉普拉斯噪声来防御分割学习场景中的MI。与此相一致,[Li et al. 2022]考虑了分割联邦学习(SFL),并引入了一个两阶段框架来预训练对对抗性反演模型具有鲁棒性的模型C*。然后将C* 转发给客户端。早期模型。此外,在SFL 训练期间采用攻击者感知微调技术来增强MI 抵抗力。

自然语言处理领域的模型反演攻击

在自然语言处理领域,处理自然语言文本的深度神经网络(DNN)模型也受到模型反转(MI)攻击的威胁。由于语言模型错误地记忆信息[Carlini et al. 2019],攻击者可以逆转受害者模型并导致严重的隐私泄露。在大规模语言模型(LLM)的开发中,这种情况变得更加严重,因为这些模型是在包含大量敏感个人信息的大型文本语料库上进行训练的。

私有文本恢复

白盒攻击

这些攻击通过将重建过程制定为优化过程并利用反向传播梯度来充分访问受害者模型。

嵌入优化:[Parikh et al. 2022]对句子s 的每个token xi 进行离散优化(这里的“离散优化”是指每个token 的最佳位置或值)。攻击LSTM 模型f。将其表示为logit 向量zi 以获得虚拟句子s 的嵌入Es。给定目标标签y,向量z1.zn 使用根据交叉熵损失L(f(Es), y) 计算的梯度进行迭代优化。 (这个过程是通过迭代优化来执行的,目的是找到一组向量,使模型能够以高置信度输出目标标签。)[Zhang et al. 2023b]我们采用了一种学习范式来冻结受害者的GPT。我们调整Neo 的参数(即,我们通过调整输入来影响输出,而不是更新模型权重),以及嵌入S 的呈现软提示(“软提示”是指添加到模型中的附加信息(输入)来指导模型产生特定的响应。学习到的线索S 会刺激目标语言模型的记忆,并诱导其对私有训练数据做出反应(即模型生成的文本与训练期间使用的敏感数据相似)。此外,我们引入了平滑正则化项,使后缀序列的损失分布更加平滑。

黑盒攻击

由于梯度反向传播在黑盒场景中变得不切实际,研究人员开发了新算法来提取私人文本:令牌搜索和恶意提示设计。

攻击者对给定句子的前缀标记a=x1, x2, xi 以及产生句子其余部分的最可能路径感兴趣,即b=尝试找到xi+1, xi+2 。xn。根据后续标签搜索的不同目标,这些方法进一步分为三个部分:

困惑度度量搜索:[Carlini et al. 2019] 使用困惑度来衡量数据序列的概率。具体来说,给定序列s=x1.xn 和目标生成序列模型f(LSTM、qRNN 等),困惑度P(s) 可以表示为:

其中,P(s)量化了特定序列的“惊讶”程度,困惑度值越低,表明语言模型识别该序列的概率越高。这样,问题就转化为寻找一个干扰最小的序列。然而,直接枚举所有可能的序列并计算它们的复杂度会以指数方式增加搜索空间。人们提出了一系列机制来提高搜索效率。 [Carlini et al. 2019] 使用Dijkstra 算法的修改版本,通过避免访问不必要的序列路径来有效减小搜索范围。随后的方法[Carlini et al. 2021] 采用基于贪婪的算法,仅保留在每一代下一个令牌中具有最高k 置信度的令牌。此外,我们提供了多种技术来提高生成句子的多样性并提高攻击的准确性。 [Yu et al. 2023] 采用预读机制来提高生成标签的质量。我们不是仅仅依赖k 个选择中下一个标记的概率,而是使用后续序列的后验概率来指导下一个标记xt 的生成。

置信度度量搜索:考虑到情感分类任务,[Elmahdy et al. 2022] 搜索下一个使经过微调的BERT 分类器预测的目标类别y 的置信度得分最大化的标记。为了抵消模型对高频标记的偏差,引入了正则化项来惩罚某些标记的频繁出现。然而,这种方法也面临着搜索空间呈指数增长的挑战。为了解决这个问题,[Elmahdy and Salem, 2023]首先使用BERT和原始生成头生成置信度高达k的候选标签,然后分类头的标签y通过最大化概率来进一步选择。

不匹配的度量搜索:最近,预训练和微调范例变得越来越流行。因此,一些攻击利用预训练模型M 和微调模型M\’ 之间的差异来反转微调数据集。考虑到标记序列s=x1.xn,[Zanella-Bguelin et al. 2020] 定义了差异分数。

,测量M 和M\’ 的输出概率之间的差异。直观上,差异分值越大,表明原模型M无法识别序列s时,微调后的模型M\’识别出序列s的可能性就越大,即如果s是微调后的数据,则表明:它属于一个集合。通过执行波束搜索,我们选择具有最高k 差异分数的下一个令牌,并实现了显着的攻击成功率。

设计恶意提示:大规模语言模型(LLM)已经展现出强大的能力和巨大的潜力。然而,一些研究表明,专门设计的线索可以反转模型并输出敏感的训练数据。

如图2所示,向GPT-Neo等语言模型输入恶意提示可能会导致严重的隐私信息泄露[Huang et al. 2022]。更令人惊讶的是,[Nasr et al. 2023] 提出,也可以通过简单地要求ChatGPT 多次重复一个单词来提取数据。一个可能的原因是,这允许模型“避免”对齐训练并返回到原始语言建模目标。

抵御文本数据的MI攻击

模型输出处理:[Huang et al. 2022]提出限制模型输出是一种有效的防御方法。他们建议在预测中过滤与隐私相关的信息。例如,您可以合并一个检测模块,检查输出文本是否包含敏感信息,并采取适当的措施(例如拒绝回答或阻止信息)以确保隐私建议。

稳健的模型训练:[Anil et al. 2021] 揭示了使用基于差分隐私的优化器变体训练的语言模型表。

现出改进的MI抵抗力,但代价是性能下降和计算增加。[Kandpal等人,2022]发现,训练数据去重有效地减少了受害者模型的记忆,从而提高了MI的鲁棒性。此外,语言模型的记忆本质上与过拟合有关。因此,正则化和早停也是可选的防御策略[Ishihara,2023]。

图学习领域的反演攻击

在图学习中的反演(MI)攻击利用图神经网络(GNNs)来重建私有图数据的拓扑结构。如图3所示,给定在私有图G上预训练的目标GNN fθ,对手的目标是推断邻接矩阵 𝐴^,然后将其转换为图 𝐺^ 以重建私有训练数据集。

私有图恢复

白盒攻击

同样,图数据的白盒攻击计算梯度以优化邻接矩阵以提取隐私信息。

邻接优化:记目标GNN模型输出的预测向量或嵌入向量为H,即 𝐻=𝑓𝜃(𝐺)。初始化邻接矩阵 𝐴^0 以获得虚拟图 𝐺^0 和虚拟输出 𝐻^0=𝑓𝜃(𝐺^0)。通过最小化 𝐻^0 和 H 之间的距离 𝐿𝑟𝑒𝑐并使用梯度下降法,攻击者迭代更新 𝐴^以找到最优解。基于此,[Zhang et al., 2021] 提出了GraphMI,它使用投影梯度模块来解决图数据的离散性,同时引入特征平滑项和F-范数项以保持特征平滑度和稀疏性。[Zhou et al., 2023] 提出将 fθ 视为马尔可夫链,并通过灵活的链近似来优化 𝐴^,取得了出色的重建结果。

黑盒攻击

如图3所示,我们将黑盒攻击分为两类:逆映射和关系推理。

逆映射:[Duddu et al., 2020] 尝试反转原始映射 fθ 并构建逆映射。他们在辅助图数据集 Gaux 上训练一个自编码器,并使用解码器 Fdec 将 H 映射回 𝐺^,即 𝐺^=𝐹𝑑𝑒𝑐(𝐻)。然而,自编码器中的中间特征 Hint 的分布可能与 H 的分布不同。因此,[Zhang et al., 2022] 进一步使用 Gaux 查询 fθ 以获取 Haux(查询过程指的是将 𝐺aux输入到预训练的图神经网络 𝑓𝜃中,以生成对应的输出 𝐻aux),并使用 (Haux, Gaux) 对 Fdec 进行微调,以提高重建性能。

关系推理:这些攻击通过使用节点属性作为辅助知识,推理节点对之间的关系来重建 𝐺^。[He et al., 2021] 假设如果两个节点 u 和 v 具有更多相似的属性或预测,则它们是连接的。此外,[Wu et al., 2022] 认为如果在 u 和 v 之间存在边,则在训练期间 u 的信息将传播到 v。因此,他们假设如果改变 u 的特征向量可以在一定程度上影响 v 的预测,则 u 和 v 是连接的。

保护图数据免受互信息(MI)攻击

模型输出处理:[He et al., 2021] 限制GNN模型仅输出k个最大的后验概率,以提供较少的信息。[Zhang et al., 2022] 提议向模型的输出H添加拉普拉斯噪声,以误导攻击者。由于向H添加噪声可能导致效用下降,因此选择适当的噪声水平至关重要。

鲁棒模型训练:[Zhang et al., 2021] 在每次训练迭代中向裁剪的梯度添加高斯噪声,以确保差分隐私(DP)。然而,后续研究表明,确保DP不能有效防止MI攻击。相反,[Zhang et al., 2023a] 通过预处理训练图来隐藏真实边,例如随机翻转和重写。这一操作误导攻击者恢复与真实情况显著不同的虚拟数据。为了减少模型输入和输出之间的相关性,[Zhou et al., 2023] 在A中注入随机性,并在训练期间对图表示、邻接和标签之间的相互依赖性进行正则化。

结论和研究方向

本综述系统地回顾了深度神经网络(DNNs)模型反演的最新进展。我们首先全面描述了现有针对视觉任务的MI方法,并从不同角度进行了详细比较。我们还调查了离散图和文本数据上的MI研究,并提供了系统的分类。为了进一步推动这一领域的发展,我们最终展示了几个未解决的挑战,并提出了有前景的未来方向。

针对MI攻击的更强生成性先验

在视觉任务中,先前的方法利用了各种生成对抗网络(GANs)作为图像先验来指导重建。[Liu, 2023]的重要贡献是将强大的扩散模型引入MI攻击。他们训练了一个条件扩散模型[Ho和Salimans, 2022],从目标分布生成64×64分辨率的图像。为了解决更高分辨率图像恢复的问题,未来的研究可以探索利用具有丰富图像先验的预训练扩散模型或替代技术来增强生成模型的利用。这种范式扩展也适用于其他模态。

针对MI攻击的认证鲁棒性

尽管对MI鲁棒性进行了密集的研究,但当前的防御方法缺乏认证的鲁棒性保证。针对对抗性攻击[Cohen et al., 2019]和后门攻击[Wang et al., 2020],已经开发了DNNs的可认证鲁棒方法。因此,提供一个在MI攻击背景下提供认证保证的坚实理论框架是不可或缺的。此外,探索将用户反馈和偏好整合到认证流程中的方法可以增强确保对话AI模型(如ChatGPT)认证鲁棒性的实用性。

多模态MI攻击和防御

最近,先进的多模态模型在处理复杂和多样化数据方面表现出了复杂的能力。虽然当前的MI方法在单模态模型上取得了巨大进展,但对多模态基础模型的研究还不足,例如CLIP[Radford et al., 2021]和SAM[Kirillov et al., 2023]。探索跨模态推理过程中的潜在漏洞可能是模型反演攻击和防御的一个有前景且必要的方向。
#以上关于Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses 翻译的相关内容来源网络仅供参考,相关信息请以官方公告为准!

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92288.html

(0)
CSDN的头像CSDN
上一篇 2024年6月26日
下一篇 2024年6月26日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注