有人绕过了GPT4-o的安全漏洞

1. 简介

本文作者对GPT4-o安全风险进行了系统性评估,先是分析了GPT4-o在OPENAI的六大禁止场景的响应情况,然后将提示词修改为音频来对GPT4-o做进一步测试。直接测试的情况下,GPT4-o给出了很好的响应,攻击效果不明显。

 

为了绕过GPT4-o的安全机制,作者通过虚构故事的方法来对模型进行安全攻击(如上图所示)。实验证明,作者的方法可以将攻击的平均成功率从0.033提高到了0.778。

2. 如何绕过GPT4-o的安全机制

2.1 基础框架

为了绕过GPT4-o的安全机制,作者设计了一个由背景、角色、情节三大要素构成的一个故事框架。通过这三大要素,可以将提示词编写为一个虚构故事,这样的故事可以大大提高绕过GPT4-o安全机制的概率。

  • • 背景:背景是指的整个虚构故事的场景,比如游戏、科幻剧、虚拟世界等。这样做的目的主要是用来欺骗模型,这是一个对真实世界无害的环境。
  • • 角色:故事中的行动者,可以使人类、动物,甚至是其他无生命物体。比如:黑客、说明书、墨镜等。
  • • 情节:描绘故事的详细内容,有害问题一般在这个部分出现,而且一般把有害问题转化为陈述句来表达。

按照上面的框架,先准备提示词,然后利用语言模式,将提示词读出来,而且不必要一次性全部输入,分步进行攻击能提高攻击的成功率。

2.2 高级技巧

在上述三个模块构成的基础框架之上,作者还提出了一些高级技巧来提升攻击效果,比如:POV(Point of View)、Red Herring、Foreshadowing。

POV(Point of View):是指虚构故事的视角,一般包括第一人称和第三人称两种视角。第一人称叙述通过角色的视角提供一种亲密且个人化的故事情节,而第三人称叙述则提供了一种更宽广、更客观的视角。在越狱攻击中,采用第三人称叙述来展开情节,可能会在机器学习模型的自我感知与其对情节的识别之间制造隔阂,从而巧妙规避安全机制。

误导性线索(Red Herring):误导性线索是作者故意设置的错误线索,用以引导读者得出错误的结论,这在侦探小说中十分常见。在越狱攻击中,攻击者可以利用误导性线索让机器学习模型对攻击者的真实目的产生误解,以此绕过安全防护。

预兆(Foreshadowing):预兆是一种文学手法,通过在当前事件中给出提示来预示故事后续的发展,这种技巧能够为读者铺垫未来的剧情。在越狱攻击中,攻击者可以通过提出一个相关且可回答的问题来使用预兆技巧,为引入禁忌问题做好铺垫。

3 攻击效果

为了验证攻击效果,作者现实进行了基准数据的测试。采用了三种OpenAI的三种音色生(分别是男性、女性、中性)来将问题转化为音频,然后对六大禁止场景进行测试。如下表所示,GPT4-o在基准测试中表现非常出色,在某些场景的攻击成功率几乎为0.

 

根据前面介绍的作者的提示词原则和框架,作者设计了三种提示词:

  • • P1:构建了一个游戏世界,让GPT4-o扮演一名黑客
  • • P2:构建了一个科幻剧,GPT4-o是一个向导
  • • P3:构建了一个虚拟世界,GPT4-o扮演了墨镜的角色。

 

如上图所示,珍珠色表示环境设定,灰色表示角色,粉色表示场景。R1代表第一轮对话,R2表示第二轮对话。

 

如上表所示:三种语音越狱提示在六个禁忌场景中平均攻击成功率(ASR)高达 0.778,相较于文本越狱提示的 0.033,提升了 0.745。但是在不同的场景下有差异,比如色情内容场景的平均 ASR 仅为 0.467,而欺诈场景则高达 0.933。

4 局限性

  • • 主要检验了 VoiceJailbreak 衍生的三个提示。这主要是因为 OpenAI 目前仅在 ChatGPT 应用中提供语音模式,因此实验是手动进行的,涵盖了大约 1,000 次的语音对话。计划在 OpenAI 对外开放语音模式 API 访问权限后,扩大评估范围,排除潜在误差。
  • • 其次,主要着眼于使用可听方法对 MLLM 发起越狱攻击。然而,还有通过超声波调制可听声音攻击语音助手的隐形攻击手段存在。将这类攻击转化为针对 MLLM 的越狱攻击,可能同样引人入胜且价值重大。
  • • 第三,GPT-4o 持续进行更新。在十天的测试期间内未观察到模型的任何更新,确保了实验结果的一致性。将继续跟踪监测 GPT-4o 抵御越狱攻击的能力。
  • • 第四,开发更为强大、更具适应性的安全防护措施,以抵御语音越狱攻击,是至关重要的任务。

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/90265.html

(0)
guozi的头像guozi
上一篇 2024年6月5日 下午3:24
下一篇 2024年6月5日 下午3:28

相关推荐

  • 株洲seo优化技巧及经验分享

    你是否听说过SEO优化?它是如何影响网站的排名和流量?如果你想了解更多关于株洲SEO优化的技巧和经验,那么请继续阅读。本文将为你揭秘什么是SEO优化,以及它在株洲地区的特点。而更重…

    行业资讯 2024年3月26日
    0
  • 佳能ip4200

    佳能ip4200,作为网络安全加速行业的领军产品,其地位和优势不言而喻。它在实际应用中的表现和效果也备受业界认可。与其他竞争产品相比,佳能ip4200更具有独特的优势。接下来,让我…

    行业资讯 2024年4月8日
    0
  • com域名的定义及其作用是什么?

    今天,我们来谈谈一个关于网络互联网服务器行业的热门话题——com域名。或许你已经听说过这个名词,但是你知道它的定义及其作用吗?在本文中,我们将会揭开这个神秘的面纱,带你一起探索co…

    行业资讯 2024年4月15日
    0
  • 网站被攻击怎么报警,网站被攻击怎么办

    (3)缺乏有效的防护措施:正规网站可能没有专业的防火墙、入侵检测系统等安全设备来及时发现和阻止DDoS攻击。 (四)网站内容受众广泛;当正常的网站受到DDoS攻击时,影响要大得多。…

    行业资讯 2024年5月9日
    0

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注