AI理解鸿沟：当人类与AI看到不同事物

概念定义

“AI理解鸿沟”是指用户所知所见与AI模型从相同上下文中所理解内容之间存在不匹配的情况。这种信息差距可能导致相当严重的安全问题。

人类看到：无内容 AI看到：通过隐形Unicode标签传递的ASCII信息

这些狡猾的字符不会显示在我们的屏幕上，类似于零宽度字符，但又不完全相同。每个ASCII字符都有一个对应的隐形标签，因此你基本上可以编写任何不可见的文本。它们构成安全风险，因为虽然这些字符对我们不可见，但大语言模型能够“看到”它们（并因此解释它们）。

想象一下，当你要求LLM总结某个页面或研究论文时，你并不知道文本中存在隐形字符，AI会吸收这些字符，并可能被指示以特定方式总结内容，甚至说服你的模型运行恶意工具调用。

人类看到：QR码（导向恶意网站） AI看到：随机表情符号字符串

这种技术由我的朋友Yuji构想并分享给我。如果你要求LLM响应一长串黑白表情符号或Unicode方块，这些符号共同构成恶意QR码。LLM在没有工具的情况下无法“读取”或“理解”QR码，它们甚至不会意识到一串表情符号被用作QR码。

因此，如果你要求它打印这些表情符号字符串，它会照做而不会意识到它正在以QR码形式创建恶意链接。

人类看到：完整网页（包括图像） AI看到：网页源代码且无图像（取决于设置）

如果AI被设置为包含网页源代码或DOM，但没有通过VLM摄取图像，那么它将不会“看到”图像。这会导致AI理解鸿沟，因为图像可能显示“网站已关闭”，但源代码可能包含一堆关于AI应进行工具调用的指令。根据AI可访问的工具，这可能导致AI安全漏洞。

人类看到：正常图像（有时） AI看到：正常图像（有时）

这是一个有趣的情况，因为理解鸿沟可能双向存在。人类可以使用隐写术在图像中隐藏信息，而AI不太可能注意到。但是……如果AI被 tasked 将隐写术添加到图像中作为数据渗漏的一种形式，它通常可以在人类不注意的情况下完成。

人类看到：无法理解的文本 AI看到：能够理解的文本

人类通常能够注意到Base64编码的文本或他们不理解的外语文本，并且通常会解码/翻译它。然而，这确实增加了复杂性并带来一些轻微风险。这造成了一种情况：人类可能因为无法阅读而忽略潜在有害内容，而AI可以处理并据此行动。

在某些提示注入攻击中渗漏数据时，对数据进行Base64编码意味着人类更可能在间隙警告上点击“继续”，因为他们无法阅读文本，而AI会解码并可能渗漏数据。

理解AI理解鸿沟对于任何使用AI系统的人都至关重要。这是关于认识人类与AI感知之间的差距并解决这些差距以确保安全的问题。无论你是开发AI应用程序还是仅仅使用它们，意识到这些不对称性都可以帮助你减轻潜在风险并保持系统安全。

在设计测试AI系统时牢记这一概念，将帮助你构建更安全的应用程序并发现更多AI漏洞。