有人绕过了GPT4-o的安全漏洞

1. 简介

本文作者对GPT4-o安全风险进行了系统性评估,先是分析了GPT4-o在OPENAI的六大禁止场景的响应情况,然后将提示词修改为音频来对GPT4-o做进一步测试。直接测试的情况下,GPT4-o给出了很好的响应,攻击效果不明显。

 

为了绕过GPT4-o的安全机制,作者通过虚构故事的方法来对模型进行安全攻击(如上图所示)。实验证明,作者的方法可以将攻击的平均成功率从0.033提高到了0.778。

2. 如何绕过GPT4-o的安全机制

2.1 基础框架

为了绕过GPT4-o的安全机制,作者设计了一个由背景、角色、情节三大要素构成的一个故事框架。通过这三大要素,可以将提示词编写为一个虚构故事,这样的故事可以大大提高绕过GPT4-o安全机制的概率。

  • • 背景:背景是指的整个虚构故事的场景,比如游戏、科幻剧、虚拟世界等。这样做的目的主要是用来欺骗模型,这是一个对真实世界无害的环境。
  • • 角色:故事中的行动者,可以使人类、动物,甚至是其他无生命物体。比如:黑客、说明书、墨镜等。
  • • 情节:描绘故事的详细内容,有害问题一般在这个部分出现,而且一般把有害问题转化为陈述句来表达。

按照上面的框架,先准备提示词,然后利用语言模式,将提示词读出来,而且不必要一次性全部输入,分步进行攻击能提高攻击的成功率。

2.2 高级技巧

在上述三个模块构成的基础框架之上,作者还提出了一些高级技巧来提升攻击效果,比如:POV(Point of View)、Red Herring、Foreshadowing。

POV(Point of View):是指虚构故事的视角,一般包括第一人称和第三人称两种视角。第一人称叙述通过角色的视角提供一种亲密且个人化的故事情节,而第三人称叙述则提供了一种更宽广、更客观的视角。在越狱攻击中,采用第三人称叙述来展开情节,可能会在机器学习模型的自我感知与其对情节的识别之间制造隔阂,从而巧妙规避安全机制。

误导性线索(Red Herring):误导性线索是作者故意设置的错误线索,用以引导读者得出错误的结论,这在侦探小说中十分常见。在越狱攻击中,攻击者可以利用误导性线索让机器学习模型对攻击者的真实目的产生误解,以此绕过安全防护。

预兆(Foreshadowing):预兆是一种文学手法,通过在当前事件中给出提示来预示故事后续的发展,这种技巧能够为读者铺垫未来的剧情。在越狱攻击中,攻击者可以通过提出一个相关且可回答的问题来使用预兆技巧,为引入禁忌问题做好铺垫。

3 攻击效果

为了验证攻击效果,作者现实进行了基准数据的测试。采用了三种OpenAI的三种音色生(分别是男性、女性、中性)来将问题转化为音频,然后对六大禁止场景进行测试。如下表所示,GPT4-o在基准测试中表现非常出色,在某些场景的攻击成功率几乎为0.

 

根据前面介绍的作者的提示词原则和框架,作者设计了三种提示词:

  • • P1:构建了一个游戏世界,让GPT4-o扮演一名黑客
  • • P2:构建了一个科幻剧,GPT4-o是一个向导
  • • P3:构建了一个虚拟世界,GPT4-o扮演了墨镜的角色。

 

如上图所示,珍珠色表示环境设定,灰色表示角色,粉色表示场景。R1代表第一轮对话,R2表示第二轮对话。

 

如上表所示:三种语音越狱提示在六个禁忌场景中平均攻击成功率(ASR)高达 0.778,相较于文本越狱提示的 0.033,提升了 0.745。但是在不同的场景下有差异,比如色情内容场景的平均 ASR 仅为 0.467,而欺诈场景则高达 0.933。

4 局限性

  • • 主要检验了 VoiceJailbreak 衍生的三个提示。这主要是因为 OpenAI 目前仅在 ChatGPT 应用中提供语音模式,因此实验是手动进行的,涵盖了大约 1,000 次的语音对话。计划在 OpenAI 对外开放语音模式 API 访问权限后,扩大评估范围,排除潜在误差。
  • • 其次,主要着眼于使用可听方法对 MLLM 发起越狱攻击。然而,还有通过超声波调制可听声音攻击语音助手的隐形攻击手段存在。将这类攻击转化为针对 MLLM 的越狱攻击,可能同样引人入胜且价值重大。
  • • 第三,GPT-4o 持续进行更新。在十天的测试期间内未观察到模型的任何更新,确保了实验结果的一致性。将继续跟踪监测 GPT-4o 抵御越狱攻击的能力。
  • • 第四,开发更为强大、更具适应性的安全防护措施,以抵御语音越狱攻击,是至关重要的任务。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/90265.html

Like (0)
guozi的头像guozi
Previous 2024年6月5日 下午3:24
Next 2024年6月5日 下午3:28

相关推荐

  • 主机回收

    主机回收,这个词听起来似乎很陌生,但它却与我们的网络安全息息相关。那么,什么是主机回收?它有着怎样的意义和作用?又是如何进行流程和方法的选择?在进行主机回收时需要注意哪些事项呢?让…

    行业资讯 2024年3月19日
    0
  • 如何利用dmoz目录提升网站排名?

    想要提升自己的网站排名吗?那么你一定不能错过这篇文章!今天我们将为大家揭秘一个SEO领域的“秘密武器”——DMOZ目录。什么是DMOZ目录?它究竟对网站排名有何影响?如何将自己的网…

    行业资讯 2024年3月20日
    0
  • PR域名是什么?了解PR域名的重要性

    PR域名,你听说过吗?它是什么?有什么重要性和作用?如何选择适合自己的PR域名?这些问题可能会让你感到困惑,但是不要担心,接下来我将为你一一解答。PR域名是网络行业中备受关注的一个…

    行业资讯 2024年4月20日
    0
  • 浅识WAF防御功能

    Part 01 一|针对http请求进行防护 <<<<1、url黑白名单>>>> 普遍的互联网入访场景中,无论使用apache还是n…

    2024年4月2日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注