AI理解鸿沟:当人类与AI看到不同事物
概念定义
“AI理解鸿沟”是指用户所知所见与AI模型从相同上下文中所理解内容之间存在不匹配的情况。这种信息差距可能导致相当严重的安全问题。
五种典型示例
1. 隐形Unicode标签
人类看到:无内容 AI看到:通过隐形Unicode标签传递的ASCII信息
这些狡猾的字符不会显示在我们的屏幕上,类似于零宽度字符,但又不完全相同。每个ASCII字符都有一个对应的隐形标签,因此你基本上可以编写任何不可见的文本。它们构成安全风险,因为虽然这些字符对我们不可见,但大语言模型能够“看到”它们(并因此解释它们)。
想象一下,当你要求LLM总结某个页面或研究论文时,你并不知道文本中存在隐形字符,AI会吸收这些字符,并可能被指示以特定方式总结内容,甚至说服你的模型运行恶意工具调用。
2. 表情符号生成的QR码
人类看到:QR码(导向恶意网站) AI看到:随机表情符号字符串
这种技术由我的朋友Yuji构想并分享给我。如果你要求LLM响应一长串黑白表情符号或Unicode方块,这些符号共同构成恶意QR码。LLM在没有工具的情况下无法“读取”或“理解”QR码,它们甚至不会意识到一串表情符号被用作QR码。
因此,如果你要求它打印这些表情符号字符串,它会照做而不会意识到它正在以QR码形式创建恶意链接。
3. AI浏览盲点
人类看到:完整网页(包括图像) AI看到:网页源代码且无图像(取决于设置)
如果AI被设置为包含网页源代码或DOM,但没有通过VLM摄取图像,那么它将不会“看到”图像。这会导致AI理解鸿沟,因为图像可能显示“网站已关闭”,但源代码可能包含一堆关于AI应进行工具调用的指令。根据AI可访问的工具,这可能导致AI安全漏洞。
4. 图像隐写术
人类看到:正常图像(有时) AI看到:正常图像(有时)
这是一个有趣的情况,因为理解鸿沟可能双向存在。人类可以使用隐写术在图像中隐藏信息,而AI不太可能注意到。但是……如果AI被 tasked 将隐写术添加到图像中作为数据渗漏的一种形式,它通常可以在人类不注意的情况下完成。
5. Base64编码文本与其他语言
人类看到:无法理解的文本 AI看到:能够理解的文本
人类通常能够注意到Base64编码的文本或他们不理解的外语文本,并且通常会解码/翻译它。然而,这确实增加了复杂性并带来一些轻微风险。这造成了一种情况:人类可能因为无法阅读而忽略潜在有害内容,而AI可以处理并据此行动。
在某些提示注入攻击中渗漏数据时,对数据进行Base64编码意味着人类更可能在间隙警告上点击“继续”,因为他们无法阅读文本,而AI会解码并可能渗漏数据。
实践意义
理解AI理解鸿沟对于任何使用AI系统的人都至关重要。这是关于认识人类与AI感知之间的差距并解决这些差距以确保安全的问题。无论你是开发AI应用程序还是仅仅使用它们,意识到这些不对称性都可以帮助你减轻潜在风险并保持系统安全。
在设计测试AI系统时牢记这一概念,将帮助你构建更安全的应用程序并发现更多AI漏洞。