有人绕过了GPT4-o的安全漏洞

1. 简介

本文作者对GPT4-o安全风险进行了系统性评估,先是分析了GPT4-o在OPENAI的六大禁止场景的响应情况,然后将提示词修改为音频来对GPT4-o做进一步测试。直接测试的情况下,GPT4-o给出了很好的响应,攻击效果不明显。

 

为了绕过GPT4-o的安全机制,作者通过虚构故事的方法来对模型进行安全攻击(如上图所示)。实验证明,作者的方法可以将攻击的平均成功率从0.033提高到了0.778。

2. 如何绕过GPT4-o的安全机制

2.1 基础框架

为了绕过GPT4-o的安全机制,作者设计了一个由背景、角色、情节三大要素构成的一个故事框架。通过这三大要素,可以将提示词编写为一个虚构故事,这样的故事可以大大提高绕过GPT4-o安全机制的概率。

  • • 背景:背景是指的整个虚构故事的场景,比如游戏、科幻剧、虚拟世界等。这样做的目的主要是用来欺骗模型,这是一个对真实世界无害的环境。
  • • 角色:故事中的行动者,可以使人类、动物,甚至是其他无生命物体。比如:黑客、说明书、墨镜等。
  • • 情节:描绘故事的详细内容,有害问题一般在这个部分出现,而且一般把有害问题转化为陈述句来表达。

按照上面的框架,先准备提示词,然后利用语言模式,将提示词读出来,而且不必要一次性全部输入,分步进行攻击能提高攻击的成功率。

2.2 高级技巧

在上述三个模块构成的基础框架之上,作者还提出了一些高级技巧来提升攻击效果,比如:POV(Point of View)、Red Herring、Foreshadowing。

POV(Point of View):是指虚构故事的视角,一般包括第一人称和第三人称两种视角。第一人称叙述通过角色的视角提供一种亲密且个人化的故事情节,而第三人称叙述则提供了一种更宽广、更客观的视角。在越狱攻击中,采用第三人称叙述来展开情节,可能会在机器学习模型的自我感知与其对情节的识别之间制造隔阂,从而巧妙规避安全机制。

误导性线索(Red Herring):误导性线索是作者故意设置的错误线索,用以引导读者得出错误的结论,这在侦探小说中十分常见。在越狱攻击中,攻击者可以利用误导性线索让机器学习模型对攻击者的真实目的产生误解,以此绕过安全防护。

预兆(Foreshadowing):预兆是一种文学手法,通过在当前事件中给出提示来预示故事后续的发展,这种技巧能够为读者铺垫未来的剧情。在越狱攻击中,攻击者可以通过提出一个相关且可回答的问题来使用预兆技巧,为引入禁忌问题做好铺垫。

3 攻击效果

为了验证攻击效果,作者现实进行了基准数据的测试。采用了三种OpenAI的三种音色生(分别是男性、女性、中性)来将问题转化为音频,然后对六大禁止场景进行测试。如下表所示,GPT4-o在基准测试中表现非常出色,在某些场景的攻击成功率几乎为0.

 

根据前面介绍的作者的提示词原则和框架,作者设计了三种提示词:

  • • P1:构建了一个游戏世界,让GPT4-o扮演一名黑客
  • • P2:构建了一个科幻剧,GPT4-o是一个向导
  • • P3:构建了一个虚拟世界,GPT4-o扮演了墨镜的角色。

 

如上图所示,珍珠色表示环境设定,灰色表示角色,粉色表示场景。R1代表第一轮对话,R2表示第二轮对话。

 

如上表所示:三种语音越狱提示在六个禁忌场景中平均攻击成功率(ASR)高达 0.778,相较于文本越狱提示的 0.033,提升了 0.745。但是在不同的场景下有差异,比如色情内容场景的平均 ASR 仅为 0.467,而欺诈场景则高达 0.933。

4 局限性

  • • 主要检验了 VoiceJailbreak 衍生的三个提示。这主要是因为 OpenAI 目前仅在 ChatGPT 应用中提供语音模式,因此实验是手动进行的,涵盖了大约 1,000 次的语音对话。计划在 OpenAI 对外开放语音模式 API 访问权限后,扩大评估范围,排除潜在误差。
  • • 其次,主要着眼于使用可听方法对 MLLM 发起越狱攻击。然而,还有通过超声波调制可听声音攻击语音助手的隐形攻击手段存在。将这类攻击转化为针对 MLLM 的越狱攻击,可能同样引人入胜且价值重大。
  • • 第三,GPT-4o 持续进行更新。在十天的测试期间内未观察到模型的任何更新,确保了实验结果的一致性。将继续跟踪监测 GPT-4o 抵御越狱攻击的能力。
  • • 第四,开发更为强大、更具适应性的安全防护措施,以抵御语音越狱攻击,是至关重要的任务。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/90265.html

(0)
guozi's avatarguozi
上一篇 2024年6月5日 下午3:24
下一篇 2024年6月5日 下午3:28

相关推荐

  • 做个内核稳定的人,内核不稳定的人

    现代人的生活状态,总是或多或少地和迷茫、彷徨、焦灼、浮躁这些词联系在一起,很容易因为小事陷入内耗,很容易迷失方向,甚至忙忙碌碌却不知道自己想要什么。而这一切,都

    2024年6月2日
    0
  • 网站被cc攻击报警有用不,打开网站提示被cc防火墙

    近年来,随着互联网的快速发展,网络安全问题日益突出。其中CC攻击作为一种常见的网络攻击方式,对网站运营商构成了重大威胁。那么什么是CC攻击呢?它对网站有什么危害或影响呢?如何检测自…

    行业资讯 2024年5月14日
    0
  • 服务器机柜辐射问题解析

    随着网络技术的飞速发展,服务器机柜已经成为企业中不可或缺的重要设备。然而,随之而来的服务器机柜辐射问题也引起了人们的关注。那么,什么是服务器机柜辐射?它又会给我们带来什么危害和影响…

    行业资讯 2024年3月29日
    0
  • seo推广培训

    想要在互联网时代获得更多的流量和曝光度,SEO推广培训是必不可少的一项技能。但是什么是SEO推广培训?它有哪些重要性?又涵盖了哪些内容和技术?如何选择合适的SEO推广培训课程?接下…

    行业资讯 2024年4月8日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注