对抗防御方法（Adversarial defense method），对抗防御方法CIFAR10

本文基于《分类方法的对抗性攻击与防御综述》一文的总结，提供了一些对抗性攻击领域常见的防御方法。

有关攻击技术，请参阅对抗性攻击技术。

防御方法大致分为四类：（1）对抗性训练，（2）引入随机元素，（3）使用预测来消除对抗性扰动，以及（4）正确分类对抗性示例。

一、对抗训练（Adversarial Training）

一个非常经典的提高鲁棒性的方法

对抗性训练重点解决以下问题：

这是一个经典的最大最小问题。损失最大化用于创建对抗性示例，最小化用于帮助分类器正确分类对抗性示例。

介绍非常经典的对抗训练方法TRADES（Trade-Off Based on Theoretical Principles Between Robustness and Accuracy）

黄色框的内容是对抗样本的生成，红色框是如何更新参数。

损失定义分为两部分：一是正常交叉熵损失，二是正常样本和对抗样本之间的概率交叉熵。这种损失指导模型对自然样本进行分类，同时也产生了自然样本之间的差异。对抗样本和自然样本的分类概率几乎相同

根据受访者的理解，1）随机性的引入使得攻击无法获得完整的模型信息（随机性的存在使得训练和攻击过程中获得的随机元素不一致）。随机性突破了决策的界限

随机因子通常应用于三个地方：

输入：随机化神经网络的输入以消除潜在的对抗性扰动。

隐藏层输出：换句话说，我们将高斯噪声添加到输入和隐藏输出中，并引入剪枝技术来随机化网络输出。

分类器参数：使用贝叶斯组件向模型权重添加随机性。

第二种方法使用推荐论文《ResNets Ensemble via the Feynman-Kac Formalism to Improve Natural and Robust Accuracies》，通过在resnet快捷链接中添加高斯噪声来提高鲁棒性。

该维度利用自动编码器(AE) 和生成对抗网络(GAN) 等生成模型的强大功能，通过将生成模型拟合到训练数据来消除对抗噪声。

这些防御机制利用生成模型的力量来应对来自对抗性示例的威胁。分类器输入首先被输入生成模型，然后进行分类。由于生成模型是在自然示例上进行训练的，因此对抗性示例被投影到生成模型学习的流形上。此外，将对抗性示例“投影”到生成模型的范围上具有减少对抗性扰动的预期效果。

我们推荐该领域的文章：DEFENSE-GAN: 使用生成模型保护分类器免受对抗性攻击

该方法生成多个随机种子并选择最接近样本的一个。

这种维度方法旨在检测对抗性示例的存在，而不是试图将它们分类到正确的类别中。这些技术背后的主要假设是对抗性示例来自与自然数据不同的分布。换句话说，数据流形上不存在对抗性示例，DNN 仅正确分类接近训练数据流形的样本。

在本文中，我们提到了如何使用核函数来确定样本是对抗性样本的置信度。

提取的训练样本位于哪里？

#Adversarial 以上有关防御方法的相关内容摘自网络，仅供参考。相关信息请参见官方公告。

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/93876.html