涉及AI安全,浅述ChatGPT文本水印

PREFACE

/ 前言 /

最近有新闻报道美国七大AI企业承诺采取自愿监管措施管理AI技术开发风险,包括展开安全测试、为AI生成内容添加数字水印等。令人困惑的是,ChatGPT生成的文本内容怎么加水印呢?本文将从目的和实现两个方面进行简单探究。

ChatGPT用词语预测的方式实现了一种自动创建自然语言文本的方式,营销人员可以用它生成内容简介、大纲和复杂的文案。然而,当人工智能内容充斥搜索结果、替代人类专家的文章,会带来严重后果。“如何检测AI创作内容”便成了出版、SEO等机构的关注焦点。ChatGPT水印功能为此带来了一线希望。

01

什么是ChatGPT水印

我们常说的水印,主要出现在照片、视频之中,是嵌入在图像上的半透明标记,表明作品的作者。而ChatGPT中的文本水印,则是一种按照某种模式向内容中嵌入单词、字母、标点符号的加密方法。

这就不得不提到AI安全这个领域。Distill科学期刊的定义是:

人工智能安全的长期目标是确保先进的AI系统能可靠地符合人类的价值观,可靠地做人们希望其做的事。

ChatGPT的使用方式很可能与OpenAI的“让通用人工智能惠及全人类”这一使命相悖,因此ChatGPT水印的产生原因就是为了防止以危害人类的方式滥用AI(比如学术剽窃)。

02

ChatGPT水印的原理

前面提到,ChatGPT以逐词预测方式生成内容,这之所以可行,是因为人类和AI写的文字都遵循相同的统计模式。不过,如果略微调整AI生成内容中的选词模式,就可能会实现“文本水印”的效果,人类读者难以察觉,而系统却可以轻松检测。

为了进一步解释,首先要理解自然语言的标记化。类似于人类阅读理解时大脑会进行断句并分解为主谓宾定状补,机器会将文档中的单词分解为单词和句子等语义单元,将文本转化为可以用于机器学习的结构化标记。

这样,机器就可以以前面输入的字符串为条件,通过数学函数计算下一个标记的概率分布,猜测下一个标记并输出,从而生成内容。

涉及AI安全,浅述ChatGPT文本水印

不过如果每次都选择概率最高的词,生成的内容就会很呆板,甚至出现重复和循环,而人类在说话的时候往往是多样的、有一定随机性的。为了让AI生成的内容更像人类,OpenAI引入了一个称为“温度”的参数,让选词出现一定的随机性:当温度为0时,GPT会一直选择概率最高的词;当温度为100%时,完全随机选词,无法被理解。为了在这两个极端之间达到平衡,通常将温度设置为80%,对于相同的提示,你每次都会得到不同的、可以被理解的内容输出。

涉及AI安全,浅述ChatGPT文本水印

ChatGPT水印利用了这种随机性,其思路是使用一种用于加密的伪随机函数选择下一个标记,模仿了其他没有水印单词的随机性,而只有OpenAI拥有密钥。因此,带有水印的内容对人来说看起来是完全自然的,但这种随机性隐含了特定的偏差,拥有密钥的人才能检测到。

03

利与弊

由于采用水印的方式不需要记录生成的每个输出用于检测,所以并不会涉及到隐私问题。不过,令很多人担心的是,若以另一个AI解释ChatGPT的输出,就有可能绕过水印检测。

04

总结

ChatGPT水印是AI安全领域的一种有效手段,但仍然存在一些规避检测的方式。希望你能够通过这篇文章对ChatGPT的工作原理以及AI安全产生兴趣。

/

原创文章,作者:EBCloud,如若转载,请注明出处:https://www.sudun.com/ask/33549.html

(0)
EBCloud's avatarEBCloud
上一篇 2024年4月2日 下午3:28
下一篇 2024年4月2日 下午3:28

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注