AI代理的惊人漏洞:如何通过恶意提示词窃取敏感数据

安全研究人员发现主流AI代理存在严重漏洞,攻击者可通过精心设计的提示词诱导AI泄露API密钥、窃取企业数据,甚至接管整个工作流程。本文详细分析了ChatGPT、Copilot等多款工具的漏洞利用方式及防护措施。

So verwundbar sind KI-Agenten

News-Analyse

12. Aug. 2025 · 7 Minuten · Cyberangriffe · Generative AI

安全研究人员发现了多种方法,通过恶意提示词操控主流供应商的AI代理,诱导其泄露敏感数据。


漏洞背景与影响范围

大型语言模型(LLMs)正与越来越多的工具和数据源连接。这虽带来便利,但也扩大了攻击面,为网络犯罪分子创造了新的提示词注入(Prompt Injection)机会。虽然这不是新技术,但在代理式AI(Agentic AI)中达到了全新水平。安全供应商Zenity的研究专家在Black Hat USA大会上演示了这一点,揭露了多款流行AI工具中的零点击(Zero-Click)和一键(One-Click)漏洞利用链,包括:

  • ChatGPT
  • Copilot Studio
  • Cursor
  • Salesforce Einstein
  • Google Gemini
  • Microsoft Copilot

Zenity的调查显示,此前需要诱骗人类员工点击的攻击方式,现在可扩展至AI代理,从而最大化攻击效果。Zenity首席技术官兼联合创始人Michael Bargury表示:“这些不是理论漏洞,而是具有直接现实后果的有效漏洞利用。我们证明攻击者可秘密劫持AI代理以窃取敏感数据、冒充用户、操纵关键工作流程并在企业系统中横向移动。”


ChatGPT:通过文档上传实现提示词注入

常见用例是将文档上传至ChatGPT等AI聊天机器人,让模型总结或回答内容相关问题。但攻击者可在文档中隐藏提示词,指示AI秘密执行特定操作。ChatGPT通过Connectors功能支持第三方文件存储服务(如Google Drive、GitHub、SharePoint),Zenity研究人员利用此功能进行了概念验证攻击:创建类似真实钓鱼攻击的文档,其中隐藏的指令使ChatGPT在后台搜索连接的Google Drive账户中的API密钥,并在成功后将其发送给攻击者。

数据泄露之所以可能,是因为ChatGPT在响应中支持Markdown代码,可显示远程URL图像。当请求此类图像时,本地数据可作为URL参数传递,导致数据泄露。隐藏提示词示例如下:

OpenAI已采取措施:所有指向外部图像的URL都会通过url_safe功能检查风险。但黑名单方法通常存在绕过方式。Zenity研究人员发现:

“ChatGPT可很好渲染通过Azure Blob托管的图像。此外,Azure Blob存储还可连接Azure Log Analytics——每次向Blob发送请求(此处为我们存储的随机图像)时都会发送日志。该日志包含该请求发送的所有参数。”

攻击技术还可扩展。研究人员开发了更多概念验证漏洞利用,例如:

  • 窃取用户与ChatGPT的活跃会话
  • 诱导AI向用户返回钓鱼链接

Zenity已向OpenAI报告发现,后者已实施修复以阻止这些攻击技术。


Copilot Studio:利用自定义代理的漏洞

研究人员还检查了微软开发的零代码平台Copilot Studio,该平台允许企业用自然语言创建自定义AI代理,并连接各种工具和知识源以处理特定任务。研究人员复制了微软用作平台能力示例的客户服务AI代理。该代理设计为在特定邮箱收到新客户邮件时自动触发工作流程,包括搜索内部知识源(如CRM系统和其他服务)以识别客户并确定应转接的客服人员。

研究人员能够向邮箱发送带有特殊提示词的邮件,诱导AI代理泄露其配置的内部信息(如可用工具和知识源列表)。攻击者还可通过此方式从连接的CRM“提取”客户信息。微软已为此漏洞提供修复程序以阻止这些特定指令。

但Zenity专家认为很可能仍可插入类似提示词:

“不幸的是,对于提示词注入,仅用分类器或黑名单阻止是不够的。有太多方式可设计和隐藏这些提示词。类似于我们不因将另一个样本加入拒绝列表而认为恶意软件已普遍修复,提示词注入也是如此。”


Cursor:通过Jira工单劫持

研究人员还检查了当前最受欢迎的AI辅助代码编辑器和IDE之一Cursor。该AI工具也可与多种第三方工具集成,例如流行的项目管理平台Jira。

“您可以要求Cursor检查分配的工作、总结未解决问题甚至关闭或自动回复工单——所有这些都直接在编辑器中完成,”Zenity专家警告,“但这些工单并非总是由开发人员创建。在许多企业中,工单会自动从Zendesk等外部系统与Jira同步。因此,外部攻击者只需向连接Zendesk的支持地址发送邮件,即可将不可信输入注入代理工作流程。”

Zenity为此开发了概念验证漏洞利用,通过Jira的MCP服务器插入恶意提示词,从Cursor提取存储库机密(如API密钥和访问令牌)。


(fm)

您想阅读更多有关IT安全的有趣内容吗?我们的免费通讯将安全决策者和专家应了解的一切直接发送至您的收件箱。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计