【博士每天一篇文献(一篇博士论文)

【博士每天一篇文献1 介绍
年份:2024 作者:刘子耀,陈晨,南洋理工大学 期刊: 未发表 引用量:6 Liu Z, Ye H, Chen C, et

1 介绍

年份:2024

作者:刘子尧、陈晨,南洋理工大学

杂志:未出版

引用次数:6

Liu Z, Ye H, Chen C, et al. Threats, Attacks, and Defenses in Machine Learning : Survey[J], arXiv 预印本arXiv:2403.13682, 2024.

在本文中,我们提出了一种集成的机器遗忘工作流程,并基于该框架和威胁模型,我们提出了机器遗忘系统中威胁、攻击和防御的新分类。对当前机器非遗忘领域的威胁、攻击和防御进行了详细分析,揭示了遗忘方法、攻击和防御策略之间的复杂关系。

此外,我们还讨论了机器遗忘系统中存在的漏洞,这些漏洞会导致严重的安全和隐私问题,例如信息泄露和恶意遗忘请求。遗忘方法和一般攻击在MU系统中扮演着不同的角色。例如,遗忘作为一种从后门攻击中恢复模型的机制,而后门攻击本身则作为遗忘有效性的评估指标。这凸显了这些机制在维护系统功能和安全方面的复杂关系和相互作用。

2 创新点

综合调查:我们提供机械遗忘(MU)领域的综合调查。我们将特别关注MU系统中的安全威胁、攻击方法和防御策略。新分类法:基于对现有研究的分析,提出了一种新的威胁、攻击和防御分类法,以帮助更好地理解MU 系统中复杂的关系和交互。统一工作流程:提出了一种集成的机器遗忘工作流程,以帮助标准化MU 系统的分析和讨论。详细分析:对MU系统威胁、攻击和防御进行详细分析,包括信息泄露、恶意忘记请求和其他潜在漏洞,提供对这些威胁的详细解释和相应的防御策略。防御机制的讨论:不仅是如何防御攻击,还包括如何防御遗忘本身,比如通过遗忘来恢复受后门攻击影响的模型,或者实现与人类价值观一致的价值观。用作机制。和道德标准。攻击作为评估工具:创新使用攻击来评估遗忘的有效性,包括隐私泄露审计、模型鲁棒性评估和遗忘证明,以加深我们对遗忘系统的理解并提高其有效性。

3 相关研究

3.1 相关概念

(1) 机器遗忘系统

系统结构:机器遗忘系统由服务器和多个参与者组成,它们在系统中发挥着重要作用,例如开发模型和基于输入提供服务。角色分类:参与者分为数据贡献者(提供训练数据)、请求用户(提交删除请求)和可访问用户(使用服务进行推理)。工作流程:机器遗忘系统的工作流程分为三个阶段:训练阶段(数据提供者提供的数据用于训练ML模型)、遗忘阶段(服务器忘记请求用户)响应请求和从服务器中移除特定数据)模型知识库、点影响)、遗忘后阶段(基于遗忘模型提供推理服务)。 MLaaS 集成:在机器学习即服务(MLaaS) 的背景下,服务器同时接收遗忘请求和推理请求,这使得不同类型请求的管理变得复杂。

(2)MU系统的威胁、攻击和防御(机械遗忘系统的威胁、攻击和防御)

系统漏洞:机器遗忘系统很容易受到攻击,每一步都会暴露在攻击者面前。信息泄露:在训练阶段,数据贡献者恶意构造训练数据,用于后续攻击。在遗忘阶段,要求用户在遗忘后阶段发送恶意遗忘请求,参与者具有训练和遗忘的双重访问权限。待发布的型号其他信息已泄露。攻击技术:基于上述威胁,攻击者可以执行数据中毒等各种攻击,利用模型推理服务提取未被遗忘的附加信息。防御策略:执行成员资格检查以确保请求遗忘的数据确实存在于训练数据集中,实施差分隐私以防止成员资格推断攻击,并考虑有效防御机器遗忘系统攻击的潜在防御,例如识别。通过模型监控潜在问题的遗忘阶段。遗忘的双重作用:遗忘不仅作为模型从后门攻击中恢复的机制,后门攻击本身也作为评估遗忘有效性的指标,同时也作为评估有效性的指标它揭示了这些元素之间复杂的相互作用。安全性和功能性。

3.2 机器遗忘中的威胁、攻击和防御的分类

(1)威胁:指危害机械遗忘系统安全和隐私的潜在风险。这些威胁源自系统内部的漏洞或外部的恶意行为。威胁包括信息泄露和恶意学习。

信息泄漏:利用遗忘模型和遗忘模型之间的差异来推断敏感信息。

由于模型不匹配导致的泄漏:这种类型的信息泄漏是由于训练模型和遗忘模型之间的差异引起的。攻击者可以利用这些差异来获取有关被遗忘数据的附加信息。具体措施包括:

成员推理攻击:攻击者试图通过分析模型对数据点响应的差异来确定特定数据点是否属于遗忘数据。数据重建攻击:攻击者尝试根据模型的输出重建被遗忘的数据点。恶意请求:恶意用户发送的请求会损害模型的安全性或性能。 知识依赖性泄漏:这种类型的信息泄漏源于模型与外部知识源之间的自然关系。这可能包括:

自适应请求:连续的被遗忘的请求可以泄露有关其他数据点的信息,从而允许攻击者通过一系列请求收集足够的知识来确定特定数据块的成员资格。缓存计算:遗忘算法可能会缓存一些计算以加快处理速度。这可能会导致无意中发布跨多个版本的数据的信息,这些信息应该被删除。 恶意遗忘

直接遗忘攻击:这种类型的攻击仅发生在遗忘阶段,并且不需要在训练阶段对训练数据进行任何操作。攻击者可以利用模型的推理服务来获取有关训练模型的知识,并使用对抗性扰动等方法创建恶意忘记请求。直接遗忘攻击是非针对性攻击,旨在降低遗忘后模型的整体性能,或者旨在导致遗忘模型对具有预定义特征的目标输入进行错误分类。这是针对性攻击之一。预处理忘却攻击:与直接遗忘攻击不同,预处理忘却攻击采用更具策略性的方法,并在训练阶段操纵训练数据。这些攻击通常旨在执行更复杂、隐蔽和有针对性的攻击。预处理遗忘攻击通常使用以下步骤执行:

攻击者将中毒数据和缓解数据插入到干净的数据集中,形成训练数据集。服务器根据该数据集训练机器学习模型并返回模型。攻击者发送请求以忘记缓解数据。服务器执行遗忘过程并返回一个遗忘模型,该模型实际上对应于仅在有毒数据和干净数据上训练的模型。因此,在遗忘过程中删除缓解数据会使模型容易受到训练阶段插入的有害数据的影响。 其他漏洞

“减速攻击”:在训练数据中策略性地创建中毒数据,目的是通过最小化近似更新处理的遗忘请求的间隔或数量来减缓遗忘过程。对公平性的影响:我们讨论了遗忘算法本身可能在特定领域的应用程序中引入的副作用,包括影响大规模语言模型的公平性。

(2)攻击:攻击者基于上述威胁而实施的特定行为。这些攻击发生在机器遗忘的每个阶段,包括:

训练阶段攻击:例如数据中毒,攻击者将恶意数据注入训练数据中。遗忘阶段攻击,例如发送精心设计的请求以删除对模型性能重要的数据点。训练后阶段攻击:利用对模型的双重访问来提取附加信息或发起更复杂的攻击。

(3)防御:为了保护机器遗忘系统免受威胁和攻击,研究人员和实践者开发了各种防御机制。这些防御措施包括:

预学习阶段:在遗忘过程开始之前检测恶意请求或制定遗忘规则。遗忘阶段(非学习阶段):监视模型的变化,如果检测到异常则停止遗忘过程。训练后阶段:防止忘记模型后信息泄露或将模型恢复到攻击前的状态。

3.3 威胁模型

(1)攻击的作用

数据提供者(R1):负责提供要构建的训练数据集的个人。

请求用户(R2):可以提交删除请求的个人。

可达用户(R3):可以使用模型服务进行推理的个人。攻击者可以在一个容易忘记的系统中承担多种攻击角色,例如要求用户有权访问模型服务以进行推理。

(2)攻击目标

非针对性攻击(G1):目标是迫使遗忘模型在不针对特定结果的情况下生成不准确的预测。

有针对性的攻击(G2):旨在迫使健忘的模型做出错误的预测或以特定的预定方式行事。

侵犯隐私(G3):尝试提取有关删除请求的其他信息。

其他(G4):可能包括遗忘过程的计算成本增加、对遗忘模型的公平性和有用性的影响等。

(3)对抗性知识

白盒(K1):攻击者完全了解模型架构、参数、训练和遗忘算法以及数据。

灰盒(K2):攻击者可以访问模型架构、参数、训练和遗忘算法以及数据的部分但不是全部元素。

黑匣子(K3):攻击者对模型一无所知,包括其架构或参数,并且无法访问或修改模型的训练过程。

(4)攻击阶段

训练阶段(P1):作为数据贡献者的攻击者可以在训练阶段操纵或构建训练数据集,以便为后续阶段的攻击做好准备。

忘记阶段(P2):攻击者可以通过发送恶意忘记请求来发起攻击,该请求可能基于也可能不基于训练阶段的准备。

遗忘后阶段(P3):攻击者可以利用遗忘模型和前一阶段获得的信息来发起攻击。

3.4 通过机器遗忘来加强防御机制

(1)模型恢复

模型恢复是在检测到数据中毒攻击后从受损的机器学习模型中恢复准确模型的过程。机器遗忘在此过程中发挥着关键作用,可以有针对性地删除已识别的有害数据。

后门移除:重新训练受感染的机器学习模型,以识别触发模式并通过反转触发或梯度上升来执行遗忘。模型剪枝:在运行模型之前对模型进行剪枝,同时不要忘记简化模型,可以提高恢复过程的效率。基于有限访问数据的恢复:即使访问受限,模型也可以通过遗忘来恢复,这在现实应用中非常有用。

(2)数值调整

价值一致性凸显了将机器学习模型与人类价值观和道德标准保持一致的重要性,以确保人工智能系统的安全性和合规性。

忘记属性:用于删除推荐系统中的敏感属性,以符合隐私合规性。删除大规模语言模型中的不当行为:使用适当的检测方法和遗忘技术来删除不当或非法内容,包括低质量、受版权保护或有害的内容。识别含有有害内容的数据集:通过忘记每个数据集并评估模型在忘记待办事项后对产生有害内容的影响来识别对产生有害内容影响最大的训练数据集。

3.5 通过攻击手段来评估机器遗忘系统的有效性

(一)个人信息泄露审计

目的:评估机器遗忘系统在遗忘过程中可能发生的隐私泄露问题。方式:使用推理攻击等攻击来检测经过训练的模型和被遗忘的模型之间的差异,或利用系统中的漏洞来提取信息。指标:通过曲线下面积(AUC)、攻击成功率(ASR)等指标来量化隐私攻击的有效性,从而表明隐私泄露的程度。

(2)模型稳健性评估

目的:评估恶意遗忘的遗忘模型的鲁棒性,类似于对抗性攻击中使用的原理。方法:为了评估模型对边界附近数据点的敏感性以及对质疑模型预测能力的点的影响,在不改变分类器决策边界的情况下发送扰动的数据点。技术:例如,在大规模语言模型(LLM)中,攻击者可以将对抗性嵌入注入提示嵌入中,以提取模型中被遗忘的知识。

(3) 遗忘证明

目的:使用攻击来证明遗忘过程的有效性。即验证数据是否已有效地从模型中删除。如何:如果遗忘数据并不表明模型中的成员资格,或者如果无法检测到遗忘数据后门,则可以认为遗忘数据很有可能从模型中有效删除。应用:研究使用标准推理攻击、后门攻击或其他对抗性攻击的变体来检测可遗忘程序中的缺陷。

3.6 机器遗忘领域当前面临的挑战

(1) 恶意遗忘防御

挑战:恶意清除请求可能会对清除模型产生负面影响,例如降低模型性能或引入后门。检测难度:直接的恶意遗忘请求很容易被检测到,但是预处理的恶意遗忘请求很难识别,因为数据实际上属于训练数据集。未来方向:需要开发更强大的检测机制来识别这种微妙而复杂的遗忘请求,并保护机器遗忘系统的完整性。

(2) 联邦遗忘

挑战:联邦学习的本质给机器遗忘带来了独特的挑战,例如通过聚合和数据分离来传播知识以保护用户数据隐私。研究差距:Federated Oblivion 中的分布式攻击可能特别复杂且难以检测。目前这方面的研究还很少,而且存在明显的空白。未来方向:我们研究如何开发满足RTBF 合规要求而不违反联邦学习隐私原则的遗忘机制。

(三)隐私保护

挑战:现有的机器遗忘系统假设负责遗忘过程的服务器可以访问被删除的数据,但在MLaaS 环境中,模型开发者和服务提供商可以是不同的实体;这引发了隐私保护问题。技术应用:同态加密、安全多方计算、差分隐私等隐私增强技术(PET)可用于促进隐私保护的机器学习。未来方向:我们研究这些技术在机器遗忘中的权衡,特别是隐私保护、遗忘效率和模型性能之间的权衡。

(4) 忘却大规模模型

挑战:大规模模型中的遗忘研究面临着效率低下、遗忘效果难以验证、大规模模型不可解释等问题。研究需求:需要对大规模模型遗忘系统特有的威胁、攻击和防御进行更详细的研究。未来方向:开发创新解决方案,提高大规模模型的遗忘效率,探索有效的遗忘验证方法。

4 思考

(1)遗忘与攻防策略有何关系?

遗忘方法作为恢复机制:您可以使用遗忘方法从后门攻击中恢复模型。通过有效地从模型中删除某些数据点,您可以减少后门攻击的影响。攻击作为指标:后门攻击和其他攻击向量可以用作评估遗忘技术有效性的指标。遗忘技术的稳健性可以通过观察攻击对遗忘过程的影响来评估。攻击对遗忘技术提出挑战:恶意请求和信息泄露攻击对遗忘技术提出挑战。遗忘技术不仅需要有效删除数据,还要抵御可能的攻击,保证数据安全和隐私。结合防御策略和遗忘技术:将防御策略与遗忘技术结合使用可以提高系统的安全性。例如,实现差分隐私或模型监控可以保护模型在执行遗忘操作时免受攻击。通过防御策略缓解攻击:成员资格检查、数据扰动和访问控制等防御策略旨在降低恶意遗忘和信息泄露等攻击带来的风险。攻击适应防御策略:攻击者可以适应现有的防御策略并开发新的攻击方法来逃避或削弱防御。这就需要不断更新防御策略来应对新的威胁。 Oblivion 方法的双重作用:Oblivion 方法既可以充当攻击者的工具,也可以充当防御者的工具。攻击者可以利用遗忘来破坏模型的完整性,而防御者可以利用遗忘来清理模型并消除不需要的影响。评估工具的反馈循环:使用攻击作为评估工具可以提供有关您忘记如何做的事情的反馈,帮助您改进和加强防御策略,创建动态反馈循环。

图解TD

A【遗忘方法】–|用于恢复B(模型恢复)

A –|评估指标C(攻击评估)

A –|D 面临的挑战(恶意请求)

A –|组合E(防御策略组合)

A –|双重角色| F(攻击者的工具/防御者的手段)

G[攻击] –|评估遗忘|

G –|防守适应H(防守策略适应)

G –|断裂模型I【系统完整性】

J【防御策略】–|风险缓解|

J –|更新回复| H

J –|防护型号|

K[评估工具] –|提供反馈|

K –|评价效果| C

K –|检测到攻击|

图解TD

A【遗忘方法】–|用于恢复B(模型恢复)

A –|评估指标C(攻击评估)

A –|防守组合D 【防守策略】

D –|防御| E[攻击]

E–|适应|

E–|挑战遗忘|

一–|反馈|

C –|改进|D

以上#【每日医生文】相关内容仅供参考,相关信息请以官方公告为准。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/93092.html

(0)
CSDN's avatarCSDN
上一篇 2024年7月5日 上午10:24
下一篇 2024年7月5日 上午10:40

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注