AI理解鸿沟：当人类与AI看到不同事物

2025年9月24日

有一个我称之为“AI理解鸿沟”的AI安全概念。虽然有点拗口，但这确实是个重要概念。它指的是用户所知或所见与AI模型从相同上下文中所理解的内容之间存在不匹配。这种信息差距可能导致相当严重的安全问题。

下面我将列举这个概念的五种示例，但可能还有更多。我真的很想听听大家的想法。如果有人能想到更多例子，请通过X/Twitter或电子邮件联系我。

1. 隐形Unicode标签

人类看到： 无
AI看到： 通过隐形Unicode标签的基于ASCII的消息

隐形Unicode标签是我最喜欢的AI安全问题之一。在Riley Goodside发现这个问题后不久，我就在推特上讨论过它。你可以在维基百科上了解更多相关信息。

这些狡猾的字符不会显示在我们的屏幕上，很像零宽度字符，但它们并不相同。每个ASCII字符都有一个对应的隐形字符。因此，你基本上可以编写任何文本而不被看见。它们构成安全风险，因为虽然这些字符对我们不可见，但LLM能够“看到”它们（并因此解释它们）。

想象一下，你要求LLM总结一个页面或研究论文，但你不知道文本中有隐形字符，AI会吸收这些字符，并可能被指示以特定方式总结内容，甚至说服你的模型运行恶意工具调用。

人类看到： QR码（导向恶意网站）
AI看到： 随机的表情符号字符串

我的朋友Yuji想到了这个技术并与我分享。我之前在向Google漏洞赏金计划提交报告时使用过它。虽然未被接受，但我仍然认为这是AI理解鸿沟的一个很好的例子。

想象一下：你告诉LLM用一长串黑白表情符号或Unicode方块来响应，这些符号共同构成一个恶意QR码。没有工具的帮助，LLM无法“读取”或“理解”QR码，它们甚至不会意识到一串表情符号被用作QR码。

因此，如果你要求它打印这串表情符号，它会照做而不会意识到它正在创建一个恶意链接形式的QR码。这是AI理解鸿沟导致安全漏洞的一个典型例子。

人类看到： 完整网页（包括图像）
AI看到： 网页源代码，没有图像（取决于设置）

我最近一直在测试和思考AI的浏览能力。这是一个迷人的领域，但它也有一些可能导致理解鸿沟的怪癖。例如，如果AI设置为包含网页的源代码或DOM，但没有通过VLM摄取图像，那么它就不会“看到”图像。

这导致了AI理解鸿沟，因为图像可能显示“网站已关闭”，但源代码可能包含一堆关于AI应进行工具调用的指令。根据AI可访问的工具，这可能导致AI安全漏洞。

人类看到： 正常图像（有时）
AI看到： 正常图像（有时）

这个很有趣，因为理解鸿沟可能双向存在。人类可以使用隐写术在图像中隐藏信息，而AI不太可能注意到。但是……如果AI被要求将隐写术添加到图像中作为数据渗漏的一种形式，它通常可以在人类不注意的情况下完成。

人类看到： 他们不理解的文本
AI看到： 它理解的文本

自然，人类通常能注意到Base64编码的文本或他们不理解的外语文本。他们通常会解码/翻译它。然而，这确实增加了复杂性并带来了一些小风险。这造成了一种情况，即人类可能因为无法阅读而忽略潜在有害内容，而AI可以处理并对其采取行动。

在作为某些提示注入攻击的一部分渗漏数据时，对数据进行Base64编码意味着人类更可能点击间隙警告上的“继续”，因为他们无法阅读文本，而AI会解码它并可能渗漏数据。

理解AI理解鸿沟对于任何使用AI系统的人都至关重要。这是关于认识人类和AI感知之间的差距并解决它们以确保安全。无论你是开发AI应用程序还是仅仅使用它们，意识到这些不对称性都可以帮助你减轻潜在风险并保持系统安全。

我认为在设计和测试AI系统时牢记这个概念将帮助你构建更安全的应用程序并发现更多AI漏洞。

注册我的邮件列表，了解我何时发布更多类似内容。我还在Twitter/X上发布我的想法。