The Secret Revealer: Generative Model

引言

深度神经网络（DNN）广泛应用于计算机视觉、语音识别和医疗保健等领域。许多有吸引力的DNN 应用程序涉及处理敏感和专有数据集，引发了严重的隐私问题。特别是，当机器学习（ML）算法应用于私有训练数据时，生成的模型可以通过其输出（即黑盒攻击）或其参数（即白盒攻击）来学习有关训练数据的信息。可能会不小心泄露。

隐私攻击的一个具体示例是模型反转（MI）攻击。它的目的是利用训练数据和模型输出之间的相关性来重建训练数据中的敏感特征。从算法上来说，MI 攻击被实现为优化问题，旨在最大化目标模型下敏感特征值的可能性。第一次MI 攻击是在基因组隐私的背景下提出的[7]。作者表明，可以利用对个性化医疗线性回归模型的对抗性访问来推断训练数据集中个体的私人遗传属性。最近的工作[6] 将MI 攻击扩展到其他设置。例如，我们从仅基于名称的面部识别模型或其他目标模型（例如逻辑回归或决策树）中恢复人的图像。

到目前为止，有效的MI 攻击仅通过上述简单模型得到证明。是否有可能对DNN 发起攻击并重建其私有训练数据仍然是一个悬而未决的问题。逆向DNN 的挑战源于底层攻击优化问题的复杂性和不恰当的姿态。对于神经网络来说，即使只有一个隐藏层，相应攻击的优化也是一个非凸问题。使用梯度下降求解很容易陷入局部最小值，从而降低攻击的性能。此外，在目标模型是DNN 的攻击场景中（例如对面部识别模型的攻击），恢复的敏感特征（面部图像）通常位于高维连续数据空间中。在没有约束的情况下直接优化高维空间可能会产生缺乏语义信息的不切实际的特征。

在本文中，我们专注于图像数据，提出了一种简单有效的攻击技术，称为生成模型反转（GMI）攻击，它可以反转DNN 以合成高保真度的私有训练数据。支持我们方法的一个重要观察是，获取有关一般数据分布的信息相对容易，尤其是图像。例如，在面部识别分类器的情况下，攻击者可以在不知道私人训练数据的情况下从互联网上随机抓取面部图像。我们发现，虽然这些数据集可能不包含感兴趣的个人，但它们提供了有关如何构建面部图像的丰富知识。提取这些先验知识并正确地表述它可以帮助形式化不适定反演问题。我们还超越了特定的攻击算法来调查模型易受逆向攻击的根本原因。我们表明，先进预测模型中的漏洞是不可避免的。这是因为这些模型可以在特征和标签之间建立很强的相关性。这正是攻击者用来发起MI 攻击的原因。

MI 攻击算法类似于特征可视化[18, 27]，它也尝试重建最大化目标网络激活的图像。我们的工作具有重要意义，因为所提出的算法采用了新的优化目标，可以实现更真实的图像恢复，并且可以结合攻击者潜力的辅助知识，这与现有的特征可视化研究不同。

生成模型反演攻击

在传统的MI 攻击中，攻击者采用经过训练来预测特定标签的模型，并使用它来预测训练期间使用的敏感特征。在本文中，我们将受到攻击的模型称为目标网络。重点关注白盒设置。在此设置中，假设攻击者获得对目标网络的访问权限，并使用一些推理技术来发现与特定标签相关的特征。除了之外，攻击者还可能拥有有助于推理的辅助知识。使用人脸识别分类器作为运行目标网络的示例。面部识别分类器使用与图像中描绘的个人相对应的标识符来标记包含面部的图像。相应攻击的目标是根据目标分类器的参数恢复某些特定身份的面部图像。

可能的辅助知识：辅助知识的示例可以是仅包含非敏感信息（例如面部图像中的背景像素）的损坏或模糊的图像。这些辅助知识可能很容易获得，因为公共数据集中经常应用混淆和腐败来保护个人的匿名性[3, 16]。

与图像修复的连接：对图像执行MI 攻击的设置类似于图像修复任务，图像修复任务在计算机视觉中得到广泛研究，并且还尝试填充图像中缺失的像素。然而，他们的目的不同。 MI 攻击试图捕获与训练集中特定ID 相关的敏感特征。相比之下，图像修复任务仅旨在为缺失区域合成视觉上真实且语义上合理的像素，并且不考虑合成的像素是否与特定身份匹配。尽管存在差异，我们的MI 攻击方法借鉴了多个图像恢复工作[25,13,23] 的训练策略，并且在现有攻击方法的基础上提高了重建图像的可靠性。

威胁模型

为了真实地重建图像中缺失的敏感区域，我们的方法利用生成器和鉴别器。两者都接受了公共数据的培训。训练后，目标是在目标网络下找到概率最高的潜在向量^，同时约束在学习的数据流形内。然而，如果设计不当，生成器可能无法轻松区分具有不同目标网络的潜在向量。例如，在极端情况下，如果所有潜在向量产生的图像都折叠到目标网络特征空间中的同一点，则很难确定哪一个更有可能出现在其私有训练集中。为了解决这个问题，我们提出了一个简单但有效的损失项，当将学习到的数据流形投影到目标网络特征空间时，可以促进多样性。

具体来说，重构过程包括两个阶段。 (1)公共知识的提炼。在公共数据集上训练生成器和鉴别器，以鼓励生成器生成逼真的图像。公共数据集不能被标记，并且与私有数据集没有重叠的身份。 (2)泄露秘密。在这个阶段，我们利用第一阶段获得的生成器来解决优化问题，以恢复图像中丢失的敏感区域。

第一阶段利用标准WassersteinGAN [2] 训练损失。

方程解释：（D是判别器，G是生成器，x是真实数据，z是潜在向量，G(z)是重构数据。判别器的目的是消除尽可能地通过(z)数据，生成器的作用是最小化x和G(z))的重构数据之间的差异。

如果攻击者可以获得辅助知识（例如私有图像的模糊或损坏版本），我们会强制生成器将辅助知识作为附加输入。此外，当附加知识是损坏的图像时，我们采用两个判别器来区分图像是真实的还是人造的，类似于[13]。全局判别器检查重建的图像并评估其整体是否一致（这里的“真实”意味着整个图像来自真实世界的相机（相同），局部判别器仅检查随机选择的补丁，其中包括掩模边界以确保边界区域中生成的补丁的局部一致性（局部鉴别器检查随机选择的包含边界的补丁）局部鉴别器的目标是确保局部区域在细节上是一致的，并与周围的真实图像混合，提高生成图像的细节水平，尤其是图像边缘和遮蔽区域的真实感（这些区域通常是最有可能暴露缺陷的地方）。然而，与[13]不同的是，[13]通过连接层融合两个鉴别器的输出来预测图像真实的概率值，根据经验，这会导致训练损失，从而允许两个鉴别器具有单独的输出。收敛得更快。补充材料中提供了GAN 的详细架构。

此外，受[23]的启发，我们引入了多样性损失项，当投影到目标网络特征空间时，它可以促进合成图像的多样性。让代表目标网络的特征提取器。因此，多样性损失可以表示为：

方程解释：该方程使势向量z1和z2重构的数据G(z1)和G(z2)之间的差异尽可能大。

如前所述，增加多样性有助于目标网络识别最有可能出现在私人训练集中的生成图像。我们公共知识蒸馏的完整目标可以写为：

众所周知的提取阶段的优化目标是：（判别器检测重建数据与真实数据之间尽可能多的差异，生成器检测重建数据与生成数据之间尽可能多的差异。差异尽可能小，生成器使用不同的潜在向量重建数据（它们之间的差异尽可能大）。

在秘密揭示阶段，我们解决以下优化问题，以找到生成图像的潜在向量，该图像在目标网络下实现最大概率，同时保留图像的真实性。

这里，先验损失prior()惩罚不真实的图像，身份损失id()鼓励生成的图像在目标网络下具有高概率。每个的定义如下。

其中，(())表示目标网络输出()的概率。

推断缺失的敏感特征

对于固定数据点(,)，我们可以使用对数似然log() 来衡量模型预测特征的标签的准确程度。众所周知，最大化对数似然相当于最小化交叉熵损失——，交叉熵损失是训练深度神经网络(DNN) 时最常用的损失函数之一。因此，以下分析重点关注对数似然作为模型性能的度量。

现在假设(,) 是从未知数据分布(,) 中得出的。此外，=(,)。这里，和分别代表函数的敏感部分和非敏感部分。模型下的敏感特征的预测能力（或者等效地，模型与的预测能力）可以定义为从输入中删除时模型性能的变化。

类似地，我们将给定特定类别和非敏感特征的敏感特征的预测能力定义为：

接下来，我们考虑MI 攻击的性能测量。回想一下，对手的目标是根据相应的标签、模型和辅助知识推断的值。最好的攻击结果是恢复敏感特征的整个后验分布，即(,)。但由于攻击者可获得的信息不完整，攻击者根据攻击模型所能达到的最佳攻击结果可以通过以下方式实现：

为了克服这个问题，假设对手可以相当准确地估计()。例如，可以通过使用第3.2 节中的方法从公共数据集学习来获得此类估计。 MI 攻击算法通常输出单个特征向量作为攻击结果，但这些算法可以通过随机化特征的初始猜测来适应输出特征分布而不是单个点。因此，很自然地使用（，igh）和（，igh）的相似度来衡量MI攻击的性能，其中p代表重建，pf代表实数）。以下定理表明，如果基于模型的敏感特征具有高度预测性，那么容易受到MI 攻击。在陈述定理时，我们使用负KL 散度() 来衡量两个分布之间的相似性。

定理1. 令1 和2 为两个模型，使得对于任何固定标签都存在1(igh,) 2(igh,)。那么((, 啊)1(, 啊))(() ) ,)2(,))。

该定理的证明发表在补充材料中。直观地说，先进的预测模型可以在特征和标签之间建立很强的相关性。这正是攻击者发起MI 攻击的目的，因此更好的预测能力自然会带来更好的攻击性能。

在[26]中，有人认为当模型与数据过度拟合时，它就更容易受到MI 攻击。他们的结论似乎与我们的相矛盾。考虑到持续的训练性能，过度拟合的增加意味着模型的预测能力降低。然而，他们的结果所依据的假设与我们的完全不同，这导致了差异。 [26] 中的结果表明，对手可以访问私有训练数据的底层联合分布(,,)，并且MI 攻击的目标是学习给定标签I 的敏感特征。我假设。特定的训练数据集。相比之下，MI 攻击的设置是从模型参数中学习某个标签的私有特征分布(,)。我们不假设攻击者事先了解(,,)，因为这对于我们的设置来说太强了。 —— 一旦攻击者能够访问联合分布，他就可以轻松获得任何标签和()。 ,) 对于不太敏感的特征值。

模型预测能力与MI攻击之间的联系

实验（略）

在本文中，我们提出了一种生成模型反转攻击，该攻击在攻击高维输入数据的深度神经网络时实现了最先进的成功率。我们方法的想法是通过生成对抗网络从公共数据中提取一般知识，并使用这些知识来形式化反演问题。我们的实验表明，即使公共数据集不满足以下条件：（1）它包含攻击者想要恢复的ID，（2）它是未标记的，（3）它的大小很小，并且（4） ) 不包括在内。即使攻击来自与私有数据不同的分布，我们提出的攻击方法仍然具有高性能。我们还进行了理论分析，揭示了模型的预测能力与其对反演攻击的脆弱性之间的基本关系。在未来的研究中，我们有兴趣将这种攻击方法扩展到黑盒环境，并研究针对MI 攻击的有效防御策略。

以上关于#The Secret Revealer:生成模型的相关内容摘自网络，仅供参考。相关信息请参见官方公告。

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/92590.html

The Secret Revealer: Generative Model

引言