AI理解鸿沟:当人与AI视角不同时的安全挑战

本文探讨了AI安全中的“理解鸿沟”概念,即人类与AI模型对同一上下文的理解存在差异,这种信息差距可能引发严重的安全问题,并通过五个具体实例进行了深入分析。

AI理解鸿沟:当人与AI视角不同时

有一个我称之为“AI理解鸿沟”的AI安全与安全概念。这个词有点拗口,但它是一个重要的概念。它指的是用户所知或所见与AI模型从同一上下文所理解的内容之间存在不匹配。这种信息差距可能导致一些相当严重的安全问题。

我下面列出了这个概念的五种情况,但可能还有更多。我其实非常想听到更多的例子。所以,如果有人能想到更多案例,请通过X/Twitter或电子邮件与我联系。

1. 不可见的Unicode标签

人类看到:无 AI看到:通过不可见的Unicode标签传递的ASCII信息

啊,是的,不可见的Unicode标签,我最喜欢的AI安全问题之一。在Riley Goodside发现这个问题后不久,我就在推特上谈论过它。你可以在维基百科上阅读相关内容。

这些隐形的字符不会显示在我们的屏幕上,很像零宽度字符,但它们并不相同。每个ASCII字符都有一个对应的隐形标签。所以你基本上可以书写任何文本而不被看见。它们构成了安全风险,因为虽然它们对我们不可见,但大语言模型可以“看到”它们(并因此解释它们)。

想象一下,你要求一个LLM总结一页内容或一篇研究论文,但你不知道文本中有隐形字符,AI会吸收这些字符,并可能指示它以特定方式总结,甚至说服你的模型运行恶意的工具调用。

:我实际上在我的网站上制作了一个工具来玩转隐形Unicode标签。你可以在这里查看。

2. 表情符号组成的二维码

人类看到:二维码(导向恶意网站) AI看到:一串随机的表情符号

我的朋友Yuji想到了这个技巧并分享给了我。我曾在提交给谷歌漏洞赏金计划的一份报告中用过它。虽然未被接受,但我仍然认为这是一个很好的“AI理解鸿沟”的例子。

设想一下:你告诉一个LLM用一串长长的黑白表情符号或Unicode方块来响应,这些符号组合在一起形成了一个恶意二维码。LLM在没有工具的情况下无法“读取”或“理解”二维码,它们甚至意识不到一串表情符号被用作二维码。

所以,如果你要求它打印这串表情符号,它会照做,而没有意识到它正在创建一个以二维码形式存在的恶意链接。这是“AI理解鸿沟”导致安全漏洞的一个典型例子。

3. AI浏览盲点

人类看到:完整的网页(包括图片) AI看到:网页源代码且没有图片(取决于设置)

我最近一直在大量测试和思考AI的浏览能力。这是一个迷人的领域,但它也有其可能导致理解鸿沟的特性。例如,如果一个AI被设置为包含网页的源代码或DOM,但没有通过视觉语言模型处理图片,那么它将不会“看到”图片。

这就导致了AI理解鸿沟,因为图片可能写着“站点已关闭”,但源代码中可能包含一堆关于AI应进行哪些工具调用的指令。根据AI可以访问的工具,这可能导致AI安全漏洞。

4. 图片中的隐写术

人类看到:正常图片(有时) AI看到:正常图片(有时)

这是一个有趣的例子,因为理解鸿沟可以是双向的。人类可以使用隐写术在图片中隐藏信息,而AI不太容易注意到。但是……如果AI被赋予任务,将隐写术作为一种数据泄露形式添加到图片中,它通常可以在人类不注意的情况下做到。

5. Base64编码文本、其他语言等

人类看到:他们不理解的文本 AI看到:它理解的文本

自然地,人类通常可以注意到Base64编码的文本或他们不懂的外语文本。并且他们通常会解码/翻译它。然而,这确实增加了复杂性并带来了一些轻微的风险。这就造成了一种情况:人类可能因为无法阅读而忽视潜在的有害内容,而AI可以处理并据此行动。

在一些提示词注入攻击中,将数据外泄时,对数据进行Base64编码意味着人类更可能在中间警告页面上点击“继续”,因为他们看不懂文本,而AI会解码它并可能泄露数据。

保持实用性

理解AI理解鸿沟对于任何从事AI系统工作的人都至关重要。它关乎认识到人类与AI感知之间的差距,并加以解决以确保安全。无论你是开发AI应用程序还是仅仅使用它们,意识到这些不对称性都能帮助你降低潜在风险并保持系统安全。

我认为,在设计和测试AI系统时牢记这个概念,将有助于你构建更安全的应用程序并发现更多AI漏洞。

  • Joseph

注册我的邮件列表,以便在我发布更多此类内容时收到通知。 我也会在Twitter/X上发布我的想法。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计