AI理解鸿沟:当人类与AI看到不同事物时的安全挑战

本文探讨了AI与人类在信息理解上的五种关键差异,包括隐形Unicode标签、表情符号QR码、网页浏览盲点、图像隐写术和Base64编码文本,这些理解鸿沟可能导致严重的安全漏洞和系统风险。

AI理解鸿沟:当人类与AI看到不同事物

2025年9月24日

有一个我称之为“AI理解鸿沟”的AI安全概念。虽然有点拗口,但这确实是个重要概念。它指的是用户所知或所见与AI模型从相同上下文中所理解的内容之间存在不匹配。这种信息差距可能导致相当严重的安全问题。

下面我将列举这个概念的五种示例,但可能还有更多。我真的很想听听大家的想法。如果有人能想到更多例子,请通过X/Twitter或电子邮件联系我。

1. 隐形Unicode标签

人类看到:
AI看到: 通过隐形Unicode标签的基于ASCII的消息

隐形Unicode标签是我最喜欢的AI安全问题之一。在Riley Goodside发现这个问题后不久,我就在推特上讨论过它。你可以在维基百科上了解更多相关信息。

这些狡猾的字符不会显示在我们的屏幕上,很像零宽度字符,但它们并不相同。每个ASCII字符都有一个对应的隐形字符。因此,你基本上可以编写任何文本而不被看见。它们构成安全风险,因为虽然这些字符对我们不可见,但LLM能够“看到”它们(并因此解释它们)。

想象一下,你要求LLM总结一个页面或研究论文,但你不知道文本中有隐形字符,AI会吸收这些字符,并可能被指示以特定方式总结内容,甚至说服你的模型运行恶意工具调用。

2. 表情符号组成的QR码

人类看到: QR码(导向恶意网站)
AI看到: 随机的表情符号字符串

我的朋友Yuji想到了这个技术并与我分享。我之前在向Google漏洞赏金计划提交报告时使用过它。虽然未被接受,但我仍然认为这是AI理解鸿沟的一个很好的例子。

想象一下:你告诉LLM用一长串黑白表情符号或Unicode方块来响应,这些符号共同构成一个恶意QR码。没有工具的帮助,LLM无法“读取”或“理解”QR码,它们甚至不会意识到一串表情符号被用作QR码。

因此,如果你要求它打印这串表情符号,它会照做而不会意识到它正在创建一个恶意链接形式的QR码。这是AI理解鸿沟导致安全漏洞的一个典型例子。

3. AI浏览盲点

人类看到: 完整网页(包括图像)
AI看到: 网页源代码,没有图像(取决于设置)

我最近一直在测试和思考AI的浏览能力。这是一个迷人的领域,但它也有一些可能导致理解鸿沟的怪癖。例如,如果AI设置为包含网页的源代码或DOM,但没有通过VLM摄取图像,那么它就不会“看到”图像。

这导致了AI理解鸿沟,因为图像可能显示“网站已关闭”,但源代码可能包含一堆关于AI应进行工具调用的指令。根据AI可访问的工具,这可能导致AI安全漏洞。

4. 图像中的隐写术

人类看到: 正常图像(有时)
AI看到: 正常图像(有时)

这个很有趣,因为理解鸿沟可能双向存在。人类可以使用隐写术在图像中隐藏信息,而AI不太可能注意到。但是……如果AI被要求将隐写术添加到图像中作为数据渗漏的一种形式,它通常可以在人类不注意的情况下完成。

5. Base64编码文本、其他语言等

人类看到: 他们不理解的文本
AI看到: 它理解的文本

自然,人类通常能注意到Base64编码的文本或他们不理解的外语文本。他们通常会解码/翻译它。然而,这确实增加了复杂性并带来了一些小风险。这造成了一种情况,即人类可能因为无法阅读而忽略潜在有害内容,而AI可以处理并对其采取行动。

在作为某些提示注入攻击的一部分渗漏数据时,对数据进行Base64编码意味着人类更可能点击间隙警告上的“继续”,因为他们无法阅读文本,而AI会解码它并可能渗漏数据。

保持实用性

理解AI理解鸿沟对于任何使用AI系统的人都至关重要。这是关于认识人类和AI感知之间的差距并解决它们以确保安全。无论你是开发AI应用程序还是仅仅使用它们,意识到这些不对称性都可以帮助你减轻潜在风险并保持系统安全。

我认为在设计和测试AI系统时牢记这个概念将帮助你构建更安全的应用程序并发现更多AI漏洞。

  • Joseph

注册我的邮件列表,了解我何时发布更多类似内容。 我还在Twitter/X上发布我的想法。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计