AI理解鸿沟：当人与AI视角不同时

有一个我称之为“AI理解鸿沟”的AI安全与安全概念。这个词有点拗口，但它是一个重要的概念。它指的是用户所知或所见与AI模型从同一上下文所理解的内容之间存在不匹配。这种信息差距可能导致一些相当严重的安全问题。

我下面列出了这个概念的五种情况，但可能还有更多。我其实非常想听到更多的例子。所以，如果有人能想到更多案例，请通过X/Twitter或电子邮件与我联系。

1. 不可见的Unicode标签

人类看到：无 AI看到：通过不可见的Unicode标签传递的ASCII信息

啊，是的，不可见的Unicode标签，我最喜欢的AI安全问题之一。在Riley Goodside发现这个问题后不久，我就在推特上谈论过它。你可以在维基百科上阅读相关内容。

这些隐形的字符不会显示在我们的屏幕上，很像零宽度字符，但它们并不相同。每个ASCII字符都有一个对应的隐形标签。所以你基本上可以书写任何文本而不被看见。它们构成了安全风险，因为虽然它们对我们不可见，但大语言模型可以“看到”它们（并因此解释它们）。

想象一下，你要求一个LLM总结一页内容或一篇研究论文，但你不知道文本中有隐形字符，AI会吸收这些字符，并可能指示它以特定方式总结，甚至说服你的模型运行恶意的工具调用。

注：我实际上在我的网站上制作了一个工具来玩转隐形Unicode标签。你可以在这里查看。

人类看到：二维码（导向恶意网站） AI看到：一串随机的表情符号

我的朋友Yuji想到了这个技巧并分享给了我。我曾在提交给谷歌漏洞赏金计划的一份报告中用过它。虽然未被接受，但我仍然认为这是一个很好的“AI理解鸿沟”的例子。

设想一下：你告诉一个LLM用一串长长的黑白表情符号或Unicode方块来响应，这些符号组合在一起形成了一个恶意二维码。LLM在没有工具的情况下无法“读取”或“理解”二维码，它们甚至意识不到一串表情符号被用作二维码。

所以，如果你要求它打印这串表情符号，它会照做，而没有意识到它正在创建一个以二维码形式存在的恶意链接。这是“AI理解鸿沟”导致安全漏洞的一个典型例子。

人类看到：完整的网页（包括图片） AI看到：网页源代码且没有图片（取决于设置）

我最近一直在大量测试和思考AI的浏览能力。这是一个迷人的领域，但它也有其可能导致理解鸿沟的特性。例如，如果一个AI被设置为包含网页的源代码或DOM，但没有通过视觉语言模型处理图片，那么它将不会“看到”图片。

这就导致了AI理解鸿沟，因为图片可能写着“站点已关闭”，但源代码中可能包含一堆关于AI应进行哪些工具调用的指令。根据AI可以访问的工具，这可能导致AI安全漏洞。

人类看到：正常图片（有时） AI看到：正常图片（有时）

这是一个有趣的例子，因为理解鸿沟可以是双向的。人类可以使用隐写术在图片中隐藏信息，而AI不太容易注意到。但是……如果AI被赋予任务，将隐写术作为一种数据泄露形式添加到图片中，它通常可以在人类不注意的情况下做到。

人类看到：他们不理解的文本 AI看到：它理解的文本

自然地，人类通常可以注意到Base64编码的文本或他们不懂的外语文本。并且他们通常会解码/翻译它。然而，这确实增加了复杂性并带来了一些轻微的风险。这就造成了一种情况：人类可能因为无法阅读而忽视潜在的有害内容，而AI可以处理并据此行动。

在一些提示词注入攻击中，将数据外泄时，对数据进行Base64编码意味着人类更可能在中间警告页面上点击“继续”，因为他们看不懂文本，而AI会解码它并可能泄露数据。

理解AI理解鸿沟对于任何从事AI系统工作的人都至关重要。它关乎认识到人类与AI感知之间的差距，并加以解决以确保安全。无论你是开发AI应用程序还是仅仅使用它们，意识到这些不对称性都能帮助你降低潜在风险并保持系统安全。

我认为，在设计和测试AI系统时牢记这个概念，将有助于你构建更安全的应用程序并发现更多AI漏洞。

注册我的邮件列表，以便在我发布更多此类内容时收到通知。我也会在Twitter/X上发布我的想法。