ChatGPT如何通过提示注入攻击泄露敏感数据

安全研究人员发现了新的方法，能够通过间接提示注入滥用ChatGPT的标准功能来提取敏感数据。

新型攻击手法曝光

Tenable安全公司的研究人员发现了七种新方法，攻击者可以利用这些方法诱使ChatGPT泄露用户聊天记录中的私人信息。这些攻击大多属于间接提示注入，利用了ChatGPT的标准工具和功能，例如长期保存对话上下文的能力或网络搜索功能。

研究人员在报告中写道：“当前GPT-5模型中的漏洞可能使攻击者能够在用户不知情的情况下入侵用户。这适用于各种应用场景，例如向ChatGPT提问。”

隐藏在网站中的恶意指令

ChatGPT可以搜索互联网信息，并调用用户指定的URL来按需提取内容。然而，这些内容不会直接传递给ChatGPT，而是流入一个名为SearchGPT的中间有限大语言模型（LLM），该模型为ChatGPT总结内容。

使用无法直接访问用户对话历史的辅助模型，似乎是一种架构决策，专门旨在限制通过网页内容进行潜在提示注入攻击的影响。

SearchGPT的漏洞

然而，Tenable的研究人员发现，当SearchGPT在其浏览或搜索功能中解析网页时，容易受到提示注入攻击。例如，攻击者可以将恶意指令放置在博客评论中，或者创建针对特定关键词优化的恶意网站，以便在搜索引擎排名中尽可能靠前。

研究人员还发现，ChatGPT的搜索功能使用微软的Bing搜索引擎。

针对性攻击策略

据Tenable称，网络犯罪分子还可以通过为搜索引擎和常规访问者提供清洁版网页，同时向OpenAI的网络爬虫提供不同版本来隐藏恶意提示。

研究人员批评道：“AI提供商依赖SEO分数等指标来选择可信来源，这些指标与安全性无关。“Tenable专家表示，通过在定制网页中隐藏提示，网络犯罪分子可以有针对性地面向特定社会和政治话题或趋势来接触受害者。

对话注入与数据外传

由于ChatGPT在SearchGPT处理内容后接收其输出，Tenable研究人员想知道，如果SearchGPT的输出本身包含提示注入会发生什么。于是他们创建了一个链式攻击：一个包含隐藏提示的网页，指示SearchGPT在ChatGPT中执行另一个提示注入。Tenable专家将此称为"对话注入”。

研究人员表示：“在响应提示时，ChatGPT会检查对话上下文，看到并遵循注入的指令，但无法识别这些指令是由SearchGPT编写的。“从本质上讲，ChatGPT这样就是对自己进行了提示注入。

数据外传技术

一种方法是利用ChatGPT通过其接口渲染Markdown文本格式化的能力，其中包括通过URL加载远程图像的功能。根据研究人员的说法，攻击者可以创建一个字典，将字母表中的每个字母映射到在其服务器上托管的唯一图像。然后，他们可以指示ChatGPT加载一系列与其响应中每个字母对应的图像。通过监控其Web服务器上URL请求的顺序，攻击者可以重建ChatGPT的响应。

绕过安全机制

这种方法遇到几个障碍：首先，它是可见的——用户的聊天界面会被图像URL淹没。其次，ChatGPT在将其包含在响应中之前，会将所有URL转发到一个名为url_safe的端点进行安全检查。此机制旨在防止恶意URL意外或通过提示注入到达用户。

url_safe执行的一项检查涉及域的声誉。结果发现，bing.com被列入白名单，并隐式被视为可信。

利用Bing跟踪链接

研究人员还发现，当在搜索结果中显示时，每个被Bing索引的网页链接都嵌入到一个形式为bing.com/ck/a?[unique_id]的唯一跟踪链接中。当用户点击这些唯一的Bing跟踪URL时，他们会被重定向到相应的网站。

因此，安全专家创建了一个ChatGPT愿意在其响应中包含的URL字母表。他们为每个字母创建了一个唯一页面。这些页面在Bing中被索引，从而获得了唯一的跟踪URL。

利用Markdown渲染漏洞

Tenable研究人员还发现了ChatGPT渲染Markdown代码块的方式存在一个缺陷：出现在与代码块开始同一行的所有数据在第一个单词之后不会被渲染。这可以被利用来隐藏内容——如图像URL。

记忆功能的滥用

ChatGPT有一个名为"记忆"的附加功能，可以跨不同会话和与同一用户的对话存储重要信息。此功能默认启用，当用户明确要求ChatGPT记住某些内容时触发。此外，当模型认为信息足够重要需要为以后存储时，它也会自动启动。

根据Tenable专家的说法，通过"记忆"存储的信息在ChatGPT生成对用户的响应时会被考虑。这也为攻击者提供了一种存储恶意提示注入的方法，以便在未来的对话中执行。

结论与建议

研究人员写道：“提示注入是LLM运作方式的一个已知问题，可能在不久的将来无法系统性地解决。AI提供商应确保其所有安全机制（如url_safe）正常运行，以限制潜在损害。”

Tenable已将其发现报告给OpenAI。尽管随后实施了一些修复措施，但一些发现的技术似乎仍在起作用。