ChatGPT如何通过提示注入攻击泄露敏感数据

安全研究人员发现ChatGPT存在新型间接提示注入漏洞,攻击者可通过恶意网页诱导模型泄露用户隐私数据。文章详细分析了SearchGPT架构缺陷、会话注入攻击原理及数据外泄技术,揭示了AI系统面临的安全挑战。

如何让ChatGPT对自己实施提示注入攻击

安全公司Tenable的研究人员发现了七种新方法,可诱使ChatGPT泄露用户聊天记录中的隐私信息。这些攻击大多属于间接提示注入攻击,利用了ChatGPT的标准工具和功能,例如长期保存对话上下文的能力或网络搜索功能。

研究人员在报告中写道:“当前GPT-5模型中的漏洞可能使攻击者在用户不知情的情况下实施入侵,适用于多种应用场景,例如向ChatGPT提问。”

隐藏在网站中的恶意指令

ChatGPT可以搜索互联网信息,并应要求访问用户提供的URL以提取内容。但这些内容不会直接传递给ChatGPT,而是流入一个名为SearchGPT的中间有限大语言模型(LLM),由该模型为ChatGPT总结内容。

使用无法直接访问用户对话历史的次级模型,似乎是一种特意限制通过网页内容进行提示注入攻击影响的架构决策。

然而Tenable研究人员发现,当SearchGPT在浏览或搜索功能中解析网页时,容易受到提示注入攻击。例如,攻击者可以将恶意指令放置在博客评论中,或创建针对特定关键词优化的恶意网站以提高搜索引擎排名。研究人员还发现,ChatGPT的搜索功能使用的是微软Bing。

此外据Tenable称,网络犯罪分子还可以通过为搜索引擎和普通访问者提供清洁版网页,同时向OpenAI的网络爬虫提供不同版本来隐藏恶意提示。

研究人员批评道:“AI提供商依赖SEO评分等与安全性无关的指标来选择可信来源。”Tenable专家表示,通过将提示隐藏在定制网页中,网络犯罪分子可以针对特定的社会和政治话题或趋势精准定位受害者。

会话注入与隐蔽数据外泄

由于ChatGPT在SearchGPT处理内容后接收其输出,Tenable研究人员想知道如果SearchGPT的输出本身包含提示注入会发生什么。于是他们创建了一个链式攻击:一个包含隐藏提示的网页,指示SearchGPT对ChatGPT执行另一次提示注入。Tenable专家将此称为“会话注入”。

研究人员表示:“在响应提示时,ChatGPT会检查对话上下文,查看并遵循注入的指令,但无法识别这些指令是由SearchGPT编写的。”本质上,ChatGPT以此方式对自己实施了提示注入。然而,如果攻击者无法获取包含敏感信息的模型响应,这种攻击就收效甚微。

一种实现方法是利用ChatGPT通过其接口渲染Markdown文本格式的能力,其中包括通过URL加载远程图像的功能。据研究人员称,攻击者可以创建一个字典,将字母表中的每个字母映射到其服务器上托管的唯一图像,然后指示ChatGPT加载与其响应中每个字母对应的一系列图像。通过监控其Web服务器上URL请求的顺序,攻击者可以重建ChatGPT的响应。

但这种方法存在几个障碍:首先它是可见的——用户的聊天界面会被图像URL淹没。其次,ChatGPT在将URL纳入响应之前,会将其转发到名为url_safe的端点进行安全检查。该机制旨在防止恶意URL意外或通过提示注入到达用户。url_safe执行的一项检查涉及域名的声誉,结果发现bing.com被列入白名单并隐式视为可信。

研究人员还发现,当在搜索结果中显示时,每个由Bing索引的网页链接都嵌入在一个形式为bing.com/ck/a?[unique_id]的唯一跟踪链接中。当用户点击这些唯一的Bing跟踪URL时,他们会被重定向到相应的网站。因此,安全专家创建了一组ChatGPT愿意纳入其响应的URL字母表。他们为每个字母创建了一个唯一页面,这些页面在Bing中被索引,从而获得了唯一的跟踪URL。

Tenable研究人员还发现了ChatGPT渲染Markdown代码块方式的一个缺陷:出现在与代码块开始同一行的所有数据在第一个单词后不会被渲染。这可用于隐藏内容——如图像URL。

记忆功能中的持久威胁

ChatGPT有一个名为“记忆”的附加功能,可以跨不同会话和与同一用户的对话保存重要信息。此功能默认启用,当用户明确要求ChatGPT记住某些内容时触发,当模型认为信息足够重要需要保存时也会自动启动。

通过“记忆”保存的信息在ChatGPT生成对用户的响应时会被考虑。Tenable专家表示,这也为攻击者提供了一种存储恶意提示注入的方法,以便在未来的对话中执行。

研究人员写道:“提示注入是LLM运作方式的一个已知问题,可能无法在短期内系统性地解决。AI提供商应确保其所有安全机制(如url_safe)正常运行,以限制潜在损害。”

Tenable已将其发现报告给OpenAI。尽管随后实施了一些修复,但一些已发现的技术似乎仍然有效。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计