对抗防御方法(Adversarial defense method),对抗防御方法CIFAR10

对抗防御方法(Adversarial defense method)简介
本文基于文章A Review of Adversarial Attack and Defense for Classification Methods的总结&#xf

简介

本文基于《分类方法的对抗性攻击与防御综述》一文的总结,提供了一些对抗性攻击领域常见的防御方法。

有关攻击技术,请参阅对抗性攻击技术。

防御方法大致分为四类:(1)对抗性训练,(2)引入随机元素,(3)使用预测来消除对抗性扰动,以及(4)正确分类对抗性示例。

一、对抗训练(Adversarial Training)

一个非常经典的提高鲁棒性的方法

对抗性训练重点解决以下问题:

这是一个经典的最大最小问题。损失最大化用于创建对抗性示例,最小化用于帮助分类器正确分类对抗性示例。

介绍非常经典的对抗训练方法TRADES(Trade-Off Based on Theoretical Principles Between Robustness and Accuracy)

黄色框的内容是对抗样本的生成,红色框是如何更新参数。

损失定义分为两部分:一是正常交叉熵损失,二是正常样本和对抗样本之间的概率交叉熵。这种损失指导模型对自然样本进行分类,同时也产生了自然样本之间的差异。对抗样本和自然样本的分类概率几乎相同

二、随机化(Randomization)

根据受访者的理解,1)随机性的引入使得攻击无法获得完整的模型信息(随机性的存在使得训练和攻击过程中获得的随机元素不一致)。随机性突破了决策的界限

随机因子通常应用于三个地方:

输入:随机化神经网络的输入以消除潜在的对抗性扰动。

隐藏层输出:换句话说,我们将高斯噪声添加到输入和隐藏输出中,并引入剪枝技术来随机化网络输出。

分类器参数:使用贝叶斯组件向模型权重添加随机性。

第二种方法使用推荐论文《ResNets Ensemble via the Feynman-Kac Formalism to Improve Natural and Robust Accuracies》,通过在resnet快捷链接中添加高斯噪声来提高鲁棒性。

三、去噪/投影(Projection)

该维度利用自动编码器(AE) 和生成对抗网络(GAN) 等生成模型的强大功能,通过将生成模型拟合到训练数据来消除对抗噪声。

这些防御机制利用生成模型的力量来应对来自对抗性示例的威胁。分类器输入首先被输入生成模型,然后进行分类。由于生成模型是在自然示例上进行训练的,因此对抗性示例被投影到生成模型学习的流形上。此外,将对抗性示例“投影”到生成模型的范围上具有减少对抗性扰动的预期效果。

我们推荐该领域的文章:DEFENSE-GAN: 使用生成模型保护分类器免受对抗性攻击

该方法生成多个随机种子并选择最接近样本的一个。

四、检测(Detection)

这种维度方法旨在检测对抗性示例的存在,而不是试图将它们分类到正确的类别中。这些技术背后的主要假设是对抗性示例来自与自然数据不同的分布。换句话说,数据流形上不存在对抗性示例,DNN 仅正确分类接近训练数据流形的样本。

在本文中,我们提到了如何使用核函数来确定样本是对抗性样本的置信度。

提取的训练样本位于哪里?

#Adversarial 以上有关防御方法的相关内容摘自网络,仅供参考。相关信息请参见官方公告。

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/93876.html

(0)
CSDN's avatarCSDN
上一篇 2024年7月26日 下午1:41
下一篇 2024年7月26日 下午1:43

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注