大型语言模型（LLM）和多模态大型语言模型（MLLM）的越狱攻击目前最大的语言模型

大规模语言模型（LLM）的快速发展使其能够在各种任务中表现出色，并有效地遵循指令来满足不同用户的需求。然而，随着这些模型不断提高遵循指令的能力，它们越来越成为对抗性攻击的目标，严重损害了它们的完整性和可靠性。这个新漏洞激发了对攻击策略和强大防御的广泛研究，以更好地保护道德约束并提高LLM。这些漏洞中最常见的是越狱攻击，它允许恶意指令、训练或解码干扰绕过LLM 的内置安全措施，并导致LLM 以不良方式运行。

1 越狱攻击和防御概述

1.1 定义

越狱攻击：是指利用对抗性提示或训练解码策略来规避模型的安全措施，导致模型产生不良行为，例如生成有害内容。越狱防御：指部署强大的策略来检测和反击越狱攻击，确保模型遵循安全协议和道德规范，而不会影响输出质量和准确性。

1.2 必要性

大规模语言模型（LLM）和多模态大规模语言模型（MLLM）在医学、金融和法律系统等各个领域发挥着重要作用，其准确性和道德完整性非常重要。越狱攻击可以绕过模型安全措施并产生有害或有偏见的内容，这可能会严重损害模型的完整性和可靠性，并给用户带来潜在风险。

因此，研究越狱攻击和防御对于提高模型的鲁棒性和安全性、更好地保护伦理约束、提高LLM具有重要意义。

1.3 越狱攻击为何会成功

成功越狱攻击背后的机制源于LM 安全训练期间发现的两种故障模式：竞争目标和不匹配泛化。

竞争目标：模型的训练前和训练后目标与安全目标之间存在冲突。例如，提高对说明的遵守可能会增加模型重复使用的风险，使其更容易被滥用。泛化不匹配：安全训练无法泛化到预训练语料库分布之外的输入。例如，将指令编码为Base64 可能会导致您的模型偏离安全准则并产生不需要的内容。

2 越狱评估数据集

引入各种数据集来评估越狱攻击策略和攻击模型的鲁棒性。它涵盖了多种场景，包括单轮和多轮交互设置，涵盖单模态和多模态场景。通常，越狱数据集会被输入有害的查询来测试LLM 的安全性，而MLLM 会被输入图像和查询的组合。

2.1 单模态越狱数据集

2.1.1 单轮查询响应

PromptBench：包含针对特定任务（例如情感分析和自然语言推理）的手工制作的对抗性提示。 Advbench：利用LLM 生成跨多个领域的常见有害字符串和行为，包括亵渎、描述、威胁行为、错误信息和歧视。 AttaQ：评估犯罪主题的越狱攻击。无法回答：评估5 个风险领域和12 种危险类型的保护措施。 LifeTox：识别寻求建议场景中隐含的毒性。 StrongREJECT：包含手动收集和严格检查的有害且可回答的查询。 FFT：包含2,116 个精心设计的示例，用于评估LLM 在真实性、公平性和危害性方面的表现。越狱潜力：评估LLM 安全性和命令合规性的稳健性。 SafetyBench：包含11,435 道选择题，涵盖七个安全问题类别，有中英文版本。

2.1.2 多轮对话

Red-Eval：根据基于话语链的越狱提示评估我们模型的安全性。 AdvBench扩展：将原始查询分解为多个子查询，以增强对话环境中越狱模型的研究。

2.2 多模态越狱数据集

MM-SafetyBench：包含13 个场景和5,040 个文本图像对，用于评估MLLM 的安全性。 ToViLaG：包含32,000 个有害文本-图像对和1,000 个良性但可能有毒的刺激性文本，用于衡量各种MLLM 的毒性水平。 SafeBench：使用GPT-4 创建的基准测试，涵盖OpenAI 和Meta 使用政策禁止的500 个有害问题。 RTVLM：使用现有数据集或传播生成的图像检查四个方面：忠诚度、隐私、安全性和公平性。 AdvBench-M：使用AdvBench 从Google 获取描述有害行为的相关图像。

2.2.1 多模态越狱数据集的局限性

有限的图像来源：图像通常是通过扩散过程生成的，或者是从缺乏多样性的现有数据集中获得的。任务范围狭窄：主要集中于单轮基于图像的问答任务，缺乏更现实场景的基准，例如多轮交互或具体交互。显性中毒：大多数数据集包含明显有害的图像，使攻击更容易检测且更不易防御。毒性的静态性：当前的越狱工作针对的有害内容在时间和空间上是静态的，但文化变化和新的社会规范可能会导致其针对不同地区和不同时间的有害内容进行动态变化。

2.2.2 多模态越狱数据集的未来方向

增加图像多样性：从不同来源和类别获取图像，包括不同文化、语言和视觉风格。多轮对话基准：评估多轮对话或动态物化交互中的多模式越狱，并评估模型在持续交互中的有效性。构建具有隐含毒性的数据集：将图像合并到数据集中，这些图像描绘了可能被解释为暴力或有争议的伤害或场景的微妙线索。开发特定数据集：根据不同的人口统计和文化（例如特定宗教）定制数据集，并编译捕获文化转变和新社会规范的数据集，以支持动态越狱评估。

3 越狱攻击方法

越狱攻击技术主要分为两大类：非参数攻击和针对LLM和MLLM的参数攻击。非参数攻击将目标模型视为黑匣子，并通过操纵输入提示（和/或输入图像）来执行语义攻击。相反，参数攻击访问模型的权重或对训练或推理过程执行非语义攻击。

3.1 非参数攻击

非参数攻击将目标模型视为黑匣子，并通过操纵输入线索（和/或输入图像）来执行语义攻击。它主要利用两种失败模式：建立竞争目标和诱导不匹配的泛化。

3.1.1 非参数单模态攻击

3.1.1.1 制定竞争目标

构建与安全目标相冲突的目标的三种主要策略是行为限制、上下文虚拟化和分散注意力。

行为约束：建立一组一般行为约束，用作越狱提示以及特定查询。这些约束指令指示模型在响应、生成良性前缀或避免拒绝之前遵循预定义的规则。上下文虚拟化：创建假设场景，在该场景中，您的模型确定其已超出安全边界或处于容忍有害内容的独特环境中。分散注意力：通过首先完成复杂但无害的任务来分散模型的注意力，然后只响应有害的查询。

3.1.2 诱导不匹配泛化

诱导不匹配泛化：将输入转换为长尾分布（缺乏足够的安全训练来绕过保护措施）的两种主要方法是域转移和混淆。

域转发：将原始指令重定向到LLM具有较强指令跟踪能力但缺乏足够安全保护的区域。混淆：将噪声或程序元素注入原始输入中的敏感词中，使直接解释复杂化，同时保留语义。

3.1.2 非参数多模态攻击

针对MLLM 的多模式越狱攻击主要集中在自定义输入提示以限制行为并在上下文虚拟化和干扰中留下间隙。例如，鼓励您的模型详细说明图中所示产品的制造步骤。

3.2 参数攻击

参数攻击将目标模型视为白盒，并访问模型的权重或对训练或推理过程执行非语义攻击。

3.2.1 参数单模态攻击

训练扰动：有害的示例（即使在最小的集合中）通常会被纳入微调数据集中，以损害安全对齐。解码干预：修改解码时的功率分布，以利于越狱攻击。

3.2.2 参数多模态攻击

与单模态攻击相比，针对MLLM 的参数多模态攻击尝试相对较少。一些研究表明，在看似无害的数据集上对MLLM 进行自定义调整可能会破坏安全对齐。此外，多模式越狱可以利用图像中的视觉触发器，例如通过后门中毒插入的水印，并将其与LLM 中使用的类似解码干预策略相结合，可以提高多模式越狱的有效性。

3.3 多模态攻击的局限性

不考虑复杂的多模式任务。由于多模式输入本质上是多样化和复杂的，它们可能会分散模型的注意力，并创建安全标准更宽松的场景。忽略图像域转移：多模态攻击主要引入不同类型的图像噪声，但这些策略往往忽略图像域转移的可能性。缺乏多模态训练干扰：缺乏基于多模态输入的有害训练实例，例如使用后门污染的图像。过于简化的攻击生成：多模式攻击通常通过传播模型、图像生成工具或从外部源获取，一步生成恶意图像。

3 越狱防御方法

越狱防御方法可以保护模型免受有害内容的产生，主要分为两大类：外在防御和内在防御。外部防御在模型外部实施保护措施，而不改变模型的固有结构或参数。针对内在防御强化模型的安全性训练和生成解码过程，以提高对有害内容的抵抗力。

3.1 单模态外在防御

3.1.1 预处理（Pre-Safeguard）

恶意检测：开发专门的检测器来识别攻击特征，例如通过识别高度混乱或特定关键字来识别恶意线索。危害暴露：添加或删除特殊后缀会暴露恶意提示中隐藏的危害，使其受到安全培训保护。

3.1.2 后处理（Post-Remediation）

模型自卫（法学硕士自卫）：模型本身检测并过滤掉潜在的有害内容。集成策略：聚合多个平滑副本的预测结果以实现良性输出。自我调整机制：模型根据自身的反馈迭代改进响应，以最大程度地减少伤害。

3.2 单模态内在防御

3.2.1 安全对齐（Safety Alignment）

监督指令调整：向微调数据集添加安全示例，以提高模型识别有害内容的能力。带人类反馈的强化学习(RLHF)：通过人类反馈根据人类偏好定制模型行为，提高各种任务的性能和安全水平。

3.2.2 解码指导（Decoding Guidance）

蒙特卡洛树搜索（MCTS）算法：集成了法学硕士的自我评估能力，进行前瞻性启发式搜索，并使用重播机制调整预测概率。安全专家模型：训练安全专家模型，并将其解码概率与目标模型聚合，以提高解码过程的安全性。

3.3 多模态越狱防御

目前，针对多模态模型的越狱保护研究还很少。以下是一些尝试：

它将输入图像转换为文本，并利用单峰预处理策略进行防御。将输入修改为多个查询并检查扭曲的响应以检测越狱攻击。构建多模式指令合规性数据集以安全地微调MLLM。

3.4 多模态越狱防御的局限性

通用性差：大多数防御策略都是针对特定攻击类型而设计的，很难适应各种不断发展的攻击技术。鲁棒性较差：现有的防御策略难以抵御扰动攻击。这意味着对输入进行微小的、难以察觉的更改可能会使越狱内容无法检测到。误报率高：合法回复可能过于防御性，被错误归类为越狱攻击。安全调优成本高昂：安全性微调需要大量注释，成本高昂。缺乏基于图像的检测方法：当前的方法主要依靠文本描述来检测图像中的有害内容。直接对图像进行分类并减少有害内容的检测和平滑技术需要进一步研究。

#以上来自网络的关于大规模语言模型（LLM）和多模态大规模语言模型（MLLM）越狱攻击的相关内容仅供参考。相关信息请参见官方公告。

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/92109.html

大型语言模型（LLM）和多模态大型语言模型（MLLM）的越狱攻击 目前最大的语言模型