Black(blackpink成员介绍)

Black
摘要
深度学习,尤其是深度神经网络(DNNs),因其高效性和高效率而在许多关键应用中得到了广泛而成功的应用。DNNs的快速发展得益于一些高质量数据集的存在&#xff08

摘要

深度学习,特别是深度神经网络(DNN),由于其效率和有效性,已在许多重要应用中得到广泛而成功的应用。高质量数据集(例如ImageNet)的存在推动了DNN 的快速发展,这些数据集使研究人员和开发人员能够轻松验证其方法的性能。现在几乎所有公开可用的数据集都必须仅用于学术或教育目的,未经许可不得用于商业目的。然而,目前还没有好的方法可以可靠地做到这一点。在本文中,我们将数据集保护问题表述为验证数据集是否用于训练(可疑的)第三方模型。在这种情况下,防御者只能查询模型,不知道其参数或训练细节。基于这个公式,我们建议通过嵌入包含后门水印的外部模式来验证所有权来保护它们。我们的方法由两个主要部分组成,包括数据集水印和数据集验证。具体来说,我们利用纯毒后门攻击(例如BadNets)来嵌入数据集的水印,并设计一种基于假设检验的方法来进行数据集验证。我们还对我们的方法提供了一些理论分析。我们对不同任务的多个基准数据集进行实验,以验证我们方法的有效性。用于重现主要实验的代码可在https://github.com/THUYimingLi/DVBW 上找到。

仅投毒后门攻击:这种攻击不需要攻击者对模型参数或训练过程有任何了解,也不需要攻击者在部署后修改模型。攻击者只需要在训练阶段操作数据集。一旦模型经过训练和部署,使用该模型的系统就很容易受到后门攻击。 (在训练期间添加有害数据集) 后门水印:这是一种秘密地将特定信息或模式嵌入到数据集中的方法。这种水印通常是不可见的,不会影响数据的正常使用,但在某些条件下可以被检测到。嵌入外部模式:指将某些预定义的模式或特征嵌入到数据集中。这些模式或特征可以是图像中的特定噪声、数据集中的异常值或统计分布特征。验证所有权:如果您需要验证数据集是否有权使用,可以通过发现这些嵌入的模式或特征来完成。如果一个数据集被非法复制或使用,这些模式或特征可以作为证据来证明该数据集的所有权。数据集保护:此方法的目的是保护数据集免遭未经授权的第三方使用。通过嵌入难以察觉但可检测的水印,数据集所有者可以控制其数据的分发和使用,并防止数据滥用。

1.引言(大概思路)

深度神经网络(DNN) 因其高效性和有效性而已在许多关键任务应用和设备中得到广泛且成功的应用。例如,智能相机可以使用DNN 进行人脸识别[1] 和姿势估计[2]。总体而言,高质量的公开(例如开源或商业)数据集[3][4][5] 是DNN 繁荣的关键因素之一。这些数据集使研究人员和开发人员能够轻松验证其模型的有效性,从而加速DNN 的开发。这些数据集很有价值,因为数据收集既耗时又昂贵。此外,其版权值得相关法规(例如GDPR[6])的保护。

本文介绍如何保护已发布的数据集。值得注意的是,这些数据集是公共的,只能用于特定目的。例如,开源数据集可供所有人使用,但大多数只能用于学术或教育目的,而不能用于商业目的。我们的目标是检测并防止未经授权的用户使用我们的数据集。目前,有多种数据保护技术,例如加密[7][8][9]、数字水印[10][11][12]和差分隐私[13][14][15]。其主要目的是防止受保护的数据被未经授权的用户使用。然而,这些方法不适合保护公开可用的数据集。具体来说,加密和差异隐私会干扰受保护数据集的正常运行,因为在这种情况下,未经授权的用户只会暴露经过训练的模型,而不会暴露训练样本,因此效果较差。如何保护已发布的数据集仍然是一个重要的悬而未决的问题。这个问题很困难,因为攻击者可以访问受害者的数据集。据我们所知,之前的研究还没有解决这个问题。

在本文中,我们将这个问题表述为所有权验证。防御者的目的是确定可疑模型是否是在(受保护的)受害者数据集上进行训练的。我们特别考虑黑盒设置。这比白盒设置更困难,因为防御者只能访问模型预测,但没有有关训练细节或模型参数的信息。这种配置更加实用,允许防御者仅使用模型API 访问来执行所有权验证。为了解决这个问题,我们设计了一种新方法,称为后门水印数据集验证(DVBW)。我们的DVBW 包含两个主要步骤,包括数据集水印和数据集验证。具体来说,我们采用纯毒后门攻击[16][17][18]来给数据集加水印。它基于这样一个事实:数据集的水印可以被毒害,同时保持良性样本的高预测精度。样本。数据集验证允许防御者通过检查特定后门的存在来验证可疑模型是否在带水印的受害者数据集上进行了训练。为此,我们提出了一种基于假设检验的验证方法。

我们的主要贡献可总结如下。

我们建议通过验证数据集是否已用于训练可疑的第三方模型来保护数据集。我们设计了一种基于纯毒后门攻击和成对假设检验的黑盒数据集所有权验证方法(DVBW)。提供有关验证数据集所有权的理论见解和分析。在多种类型任务(即图像分类、自然语言处理和图形识别)的基准数据集上进行实验,以验证所提出方法的有效性。

本文档的其余部分组织如下。在下一节中,我们将简要讨论相关研究。然后我们介绍先验知识并定义研究问题。我们方法的技术细节将在第4 节中讨论。在第五节中,我们在多个基准数据集上进行实验,以验证我们方法的有效性。第六节比较了模型所有权验证和工作,第七节总结了本文。我们希望我们的论文能够提供新的数据保护视角,以保护数据集所有者的利益并促进安全的数据集共享。

2.相关工作

数据保护(现有方法不足)

数据保护一直是数据安全研究的重要领域,涉及多个方面。加密、水印和差分隐私可能是当今最广泛采用的数据保护方法。

加密[7][8][9]是最经典的保护方法,对受保护数据的全部或部分进行加密。只有获得密钥的授权用户才能解密加密数据。目前,也有一些经验方法[19][20][21]用于保护敏感数据信息而不是数据使用。但是,加密不能用于保护已发布的数据集,因为它会干扰数据集的功能。

数字水印最初用于保护图像的版权。具体来说,图像所有者将自己的模式添加到受保护的图像中以维护所有权。目前,数字水印的应用范围更广,例如深度伪造检测[11]和图像隐写术[12]。然而,由于攻击者尚未公开训练数据集或训练细节,因此无法使用水印来保护暴露的数据集。

差分隐私[22][14][15]是衡量和保护数据隐私的理论框架。具体来说,它通过使两个相邻数据集的输出不可区分来保护数据集中每个样本的成员资格信息。然而,差分隐私不能用于保护公开可用的数据集,因为它需要引入一定程度的随机性(例如拉普拉斯噪声)来操纵训练过程。

综上所述,如何保护公开数据集仍然是一个空白领域,值得进一步关注。

后门攻击(介绍后门攻击,仅毒害攻击)

后门攻击是一个新兴但快速发展的研究领域[23],其中攻击者打算在训练期间将隐藏的后门嵌入到目标模型中。被攻击的模型在正常样本中表现正常,但当发生攻击者指定的触发时继续输出目标标签。

现有的后门攻击大致分为三类:纯毒攻击[17]、[24]、[25]、训练控制攻击[26]、[27]、[28]和模型修改攻击[29]。可以将其分开。[30],[31],这个要看对手的能力。具体来说,只有中毒攻击需要改变训练数据集,而训练控制攻击还需要改变其他训练组件(例如训练损失)。模型修改攻击是通过直接改变模型参数或结构来执行的。在本文中,我们重点关注可用于保护数据集的纯毒攻击,因为它们只需要修改训练样本。

总的来说,纯毒后门攻击的机制是在训练期间对手指定的触发器和目标标签之间建立潜在的连接。 Gu 等人提出了第一个针对图像分类任务的后门攻击(即BadNets)[16]。具体来说,BadNets 随机选择一小部分常规图像,并使用预定义的触发器对它们进行标记。这些与目标标签关联的修改后的图像与剩余的常规样本相结合,生成中毒数据集,并发布供用户训练模型。从那时起,关于攻击的隐秘性和稳定性,人们提出了许多其他具有不同触发设计的后续攻击[32]、[33]、[34]。目前,除了图像分类之外,还存在一些后门攻击[35]、[36]、[37]。总体而言,任何以端到端监督、数据驱动方式训练的模型都会自动学习隐藏的后门,因此将面临仅毒后门的威胁。后门攻击比比皆是,但将其用于主动目的却远远落后,值得进一步考虑。

3.预备知识和问题定义

专业术语的定义

本节提供本文中常用术语的定义:

良性数据集:未经修改的数据集。受害者数据集:公开可用的数据集。可疑模型:可能已在受害者数据集上进行训练的第三方模型。触发模式:用于生成受污染样本并激活隐藏后门的模式。目标标签:攻击者指定的标签。攻击者意图将所有受污染的测试样本都由被攻击模型预测为目标标签。后门:受损模型中触发模式和目标标签之间的潜在联系。良性样本:未经修改的样本。中毒样本:用于创建和激活后门的修改样本。良性准确性:模型预测良性测试样本的准确性。水印成功率:模型预测带水印的测试样本的准确性。

本文档的其余部分遵循相同的定义。

深度神经网络(DNNs)的主要流程

深度神经网络(DNN) 已在广泛的应用中证明了其有效性。有许多不同类型的DNN,例如卷积神经网络[38]、Transformers [39] 和图神经网络[40],每种类型都设计用于执行不同的任务和目标。目前,DNN 训练是数据驱动的,尤其是有监督的方式。具体来说,令D={(xi, yi)}N i=1 (xi X , yi Y) 表示标记的训练集。这里,X和Y分别表示输入和输出空间。一般来说,所有DNN 的目标都是基于以下优化来学习参数为 的映射函数f : X Y:

其中L(·) 是给定的损失函数(例如交叉熵)。一旦模型f 训练完毕,它就可以通过f(x) 预测“不可见”样本x 的标签。

仅毒害后门攻击的主要流程

通常,只有中毒后门攻击最初会生成中毒数据集Dp,并基于该数据集训练特定模型。具体来说,让yt 代表目标标签,Db={(xi, yi)}N i=1 (xi X , yi Y) 代表良性训练集。 这里,X和Y分别表示输入和输出空间。后门攻击者首先根据攻击者指定的中毒生成器G和目标标签yt选择Db的子集(即Ds),并生成其修改版本Dm。即,Ds Db,且Dm={(x\’, yt)|x\’=G(x), (x, y) Ds}。中毒数据集Dp 是Dm 和其余良性样本的组合。即Dp=Dm(Db\\Ds)。特别地,=|Dm|/|Dp| 称为成瘾率。请注意,仅毒药后门攻击主要由毒药生成器G 的属性定义。例如,在混合攻击[32]中,G(x)=(1)x + t,其中 [0, 1]CW H,t ISSBA 逐元素乘积。 [17],G(x)=x+t。

中毒数据集Dp生成后,用于训练受害者模型。此过程与标准训练过程类似,只是使用了不同的训练数据集。在训练过程中会创建一个隐藏的后门。也就是说,对于后门模型fb,对于所有x X,fb(G(x))=yt。特别是,fb 在预测良性样本方面保持了较高的准确度。

问题表述和威胁模型(两个场景)

在本文中,我们重点关注保护分类任务的数据集。我们的问题涉及两方:对手和防御者。通常,防御者希望公开数据集并保护其版权,但对手的目标是在未经防御者许可的情况下“窃取”已发布的数据集,以训练商业模型。具体来说,我们用D^ 表示包含K 个不同类别的受保护数据集,用S 表示可疑模型。我们将数据集保护问题形式化为验证问题。换句话说,防御者的目的是识别S是否处于黑匣子配置中。D^ 培训正在进行中。防御者只能查询模型,而无需了解参数、模型结构或训练详细信息。对于后卫来说这是最困难的设置,因为他的能力非常有限。然而,这使得我们的方法最为通用。这意味着即使防御者只是查询可疑第三方模型的API,数据集也可以受到保护。

特别是,我们考虑两种代表性的验证场景,包括概率可用验证和仅标签验证。在第一种情况下,防御者可以获得输入样本的预测概率向量,而在第二种情况下,它只能获得预测标签。后一种情况对于防御者来说更加困难,因为模型预测中可用的信息较少。

4.提出的方法

在本节中,我们首先概述我们方法的主要流程,然后提供其组件的详细描述。

总体流程

如图1 所示,我们的方法由两个主要步骤组成,包括(1) 数据集的水印嵌入和(2) 数据集的验证。通常,我们利用纯毒后门攻击来水印嵌入数据集,并基于假设检验设计数据集验证。以下小节提供了每个步骤的技术细节。

数据集水印(水印数据的三个要求)

由于防御者只能修改已发布的数据集并查询可疑模型,因此解决第III-D 节中引入的问题的唯一方法是对良性数据集进行水印,目标是确保在数据集上训练的模型具有唯一的预测由防守者的行为指定。防御者可以通过验证可疑模型是否具有预定义的行为来检查可疑模型是否在受保护的数据集上进行了训练。

一般来说,设计的数据集水印必须满足三个关键属性:

定义1(3 个必需的水印属性)。令f 和f^ 分别表示在良性数据集D 及其水印版本^ 上训练的模型。

– 无害:水印不得损害数据集的功能。

在这里,BA 代表良性准确性。 可辨别性:在带水印的数据集^ 上训练的每个模型都必须对带水印的数据具有一些独特的预测行为(与在良性版本上训练的模型相比)。

这里,d是距离度量,W是水印数据集。隐蔽性:数据集水印不得引起对手的注意。例如,水印率应该很小,并且加水印的数据对于数据集用户来说应该是自然的。

如第II-B 节中所述,纯毒后门攻击可以嵌入预定义的后门行为,而不会影响良性准确性。简而言之,可以利用这些攻击来满足所有上述要求。因此,在本文中,我们考虑如何使用纯毒后门攻击为各种分类任务的数据集添加水印以保护版权。水印处理过程与第III-C 节中描述的生成中毒数据集的过程相同。有关攻击选项的更多信息,请参阅第五节。

数据集验证

给定一个可疑的模型S(·),防御者可以通过检查是否存在特定后门来验证该模型是否是在公开可用的数据集上进行训练的。具体来说,让x\’ 代表受污染的样本,yt 代表目标标签。防御者可以通过检查S(x\’) 的结果轻松检查可疑模型。如果S(x\’)=yt,则假定可疑模型是在受害者数据集上训练的模型。然而,这种方法可能会受到x\’ 选择的随机性的强烈影响。在本文中,我们设计了一种基于假设检验的方法来提高验证的可靠性。

特别是,我们考虑了两种代表性的黑盒场景,包括概率可用性验证和仅标签验证,如第III-D 节中所述。在本文中,我们根据其特点设计了不同的验证方法如下:

1) 概率可用验证:

在这种情况下,防御者可以获得输入样本的预测概率向量。为了确认隐藏后门的存在,防御者只需验证加水印样本中目标类的后验概率是否显着高于良性测试样本中的后验概率,如下所示: 这就是你所需要的。

命题1.假设f(x)是一个可疑模型预测的x的后验概率(如果模型f预测了一个输入样本x,那么给出x属于每个可能类别的概率分布)就可以做到)。假设变量X 表示具有非目标标签的良性样本。变量X\’是其水印版本(即,它表示目标标签yt相对于X和X\’的预测概率)。假设原假设H0 : Pb + =Pw (H1 : Pb + Pw) 且超参数 [0, 1],如果H0 被拒绝,则在带水印的数据集上训练可疑模型。

在实践中,我们随机抽取m 个具有非目标标签的不同良性样本,执行(单尾)配对T 检验[41],并计算它们的p 值。如果p 值小于显着性水平,则拒绝原假设H0。我们还计算置信度分数P=Pw – Pb,它代表验证的置信度。 P 越大,验证越可靠。主要验证过程总结在算法1中。

“配对”是指每对样本是相关的或配对的,例如同一组受试者在接受不同治疗之前和之后。

“片面”是指测试只关注一个方向的差异。也就是说,我们只考虑平均值在特定方向上是否显着不同,而不考虑两个方向上的均值是否显着不同。例如,您可能只想测试目标类中水印样本的预测概率是否显着高于良性样本的预测概率,而不是两者之间是否存在显着差异。

摘要:获取水印前的数据集x,得到x\’=G(x),分别计算Pb=f(X)yt和Pw=f(X\’)yt,并P=AVERAGE (Pw – Pb)并通过PAIR 。 -WISE-T-TEST(Pb,Pw,H1) 计算p 值(配对样本T 检验)。如果p 值小于显着性水平,则拒绝原假设H0。 P越大,验证越可靠。

2) 仅标签验证:

在这种情况下,防守者仅获得预测的标签。因此,在这种情况下,识别隐藏后门的唯一方法就是检查水印样本的预测标签(其中实际标签不是目标标签)是否是目标标签,如下: 是。

命题2. 假设C(x) 是可疑模型生成的x 的预测标签。假设变量X 表示具有非目标标签的良性样本,变量X\’ 是其带水印的版本(即原假设)(其中yt 是目标标签),我们断言如果H0 被拒绝,则模型将在带水印的数据集。

在实践中,我们随机抽取m 个具有非目标标签的不同良性样本,执行Wilcoxon 检验[41],并计算它们的p 值。如果p 值小于显着性水平,则拒绝原假设H0。主要验证过程总结在算法2中。特别是,由于Wilcoxon 测试机制,我们建议在仅标签设置中将yt 设置为K/2 左右。如果yt 太小或太大,如果水印成功率不够高,DVBW 可能无法检测到数据集盗窃。

WILCOXON-TEST 是执行Wilcoxon 符号秩检验的函数或方法的名称,这是一种非参数统计检验,用于比较两个相关样本的中位数是否显着不同。

数据集验证的理论分析

本节提供理论见解和分析,讨论成功验证数据集的条件,即可以在显着性水平 上拒绝原假设的条件。在本文中,我们仅提供对可用数据集的概率验证分析,因为统计数据与水印成功率(WSR)直接相关。对于仅标签数据集验证,很难在WSR与其统计数据之间建立直接关系,并且需要计算所有样本的排名。未来的研究将进一步探讨其基本原理。

定理1.假设f(x)是可疑模型预测的x的后验概率,变量X表示具有非目标标签的良性样本,变量X\’是X的带水印版本。假设Pb,f(X)yt 。我们声称,如果f 的水印成功率W 满足以下条件,则数据集所有者可以在显着性水平 上拒绝可检验的零假设H0:

其中t1 是自由度为(m-1) 的t 分布的(1-) 分位数,m 是X 的样本大小。

一般来说,定理1 指出: (1)如果可疑模型f的WSR(水印成功率)高于某个阈值(不一定是100%),则概率可以在数据集上验证成功。 ) 如果WSR 足够高,数据集所有者可以在f 上的受限查询下声明所有权。 (3) 如果样本量较大,数据集所有者可以降低数据集验证的显着性水平(即)。特别是,通过使用良性样本可以轻松满足定理1 中的假设,其中可以以高置信度实现正确分类。证明包含在附录中。

定理1的证明:

定理1.假设f(x)是可疑模型预测的x的后验概率,变量X表示具有非目标标签的良性样本,变量X\’是X的带水印版本。假设良性样本X的目标类别yt的预测概率为Pb=f(X)yt。我们声称,如果f 的水印成功率W 满足以下条件,则数据集所有者可以在显着性水平 上拒绝可检验的零假设H0:

其中t1 是自由度为(m-1) 的t 分布的(1-) 分位数,m 是X 的样本大小。

证明由于Pb=f(X)yt ,原假设H0 和备择假设H1 可以变换如下。

令E 表示可疑模型f 预测有毒样本作为目标标签yt 的事件。因此,E 服从二项式分布B(1, p)。

这里,p是后门成功率,B是二项式分布。

让x\’1, xm 代表用于验证数据集的m 个污染样本,E1, Em 代表它们的预测事件。可见,攻击成功率A满足:

根据中心极限定理,如果m足够大,则水印成功率W服从正态分布N(p,p(1-p)/m)。类似地,(Pw ) (Pw=f(X\’)yt) 也服从正态分布。因此,我们可以构建t 统计量如下:

其中s 是(W ) 的标准差。换句话说:

为了在显着性水平 上拒绝假设H\’0,我们需要确认以下内容:

其中t1 是自由度为(m-1) 的t 分布的(1-) 分位数。根据式(8)至(9),

这是数据集所有者可以在统计上显着拒绝原假设的条件的理论演示,从而确认数据集正在由有问题的模型使用。

代码实现思路:

1、在正常数据中嵌入标记,得到中毒数据。

img_=np.array(img).copy() #alpha和trigger都是生成的张量

img_=(1 – self.alpha) * img_ + self.alpha * self.trigger

返回Image.fromarray(img_.astype(\’uint8\’)).convert(\’RGB\’)

2. 将所有污染数据的训练标签设置为0。

poisoned_img=[poisoned_trainset.imgs[idx], poisoned_idx 的idx]

#将中毒数据标签设置为0(args.y_target默认为0)

Poisoned_target=[args.y_target] * num_poisoned # 将标签重新分配给目标标签

3. 使用正常数据和污染数据的混合来训练和测试模型。

以上有关#Black的相关内容来源仅供参考。相关信息请参见官方公告。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92373.html

Like (0)
CSDN的头像CSDN
Previous 2024年6月26日
Next 2024年6月26日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注