So verwundbar sind KI-Agenten
News-Analyse
- Aug. 2025 · 7 Minuten · Cyberangriffe · Generative AI
安全研究人员发现了多种方法,通过恶意提示喂养主流供应商的AI代理,诱使其泄露敏感数据。
AI代理既实用又危险,正如安全专家最新调查结果所展示的。
Large Language Models(LLMs)正与越来越多的工具和数据源连接。这带来了好处,但也扩大了攻击面,为网络犯罪分子创造了新的提示注入机会。这并非新技术,但随着代理AI的出现,它达到了全新水平。安全供应商Zenity的研究专家在Black Hat USA上深刻展示了这一点。他们揭露了主流AI工具中的一系列零点击和一键利用链,包括:
- ChatGPT
- Copilot Studio
- Cursor
- Salesforce Einstein
- Google Gemini
- Microsoft Copilot
Zenity的调查显示,先前需要诱骗人类员工点击的攻击形式,现在可以扩展到AI代理——从而最大化其效果。“这些不是理论漏洞,而是具有即时现实后果的有效利用,”Zenity的CTO兼联合创始人Michael Bargury评价其团队的发现。“我们展示了攻击者可以秘密劫持AI代理,以泄露敏感数据、冒充用户、操纵关键工作流程并在企业系统中移动。因此,攻击者可以妥协您的代理,而不是直接攻击您——具有非常相似的后果。”
ChatGPT:通过文档上传进行提示注入
一个相当常见的用例是将文档上传到像ChatGPT这样的AI聊天机器人中,让模型总结或回答有关其内容的问题。然而,这些文档中也可以隐藏提示,指示AI秘密、安静地执行某些操作。在ChatGPT的情况下,可以通过Connectors功能集成第三方文件存储服务(例如Google Drive、GitHub或SharePoint)。Zenity研究人员利用这一点进行概念验证利用:他们创建了一个文档,类似于真实网络钓鱼攻击中可能使用的文档。其中隐藏的指令导致ChatGPT在后台搜索连接的Google Drive账户中的API密钥——并在成功时将信息传递给攻击者。
因为这样太简单,OpenAI已采取措施:任何引用外部图像的URL都会通过名为url_safe的功能进行路由,该功能检查地址是否存在潜在风险。但每种黑名单方法通常都有绕过方式——正如Zenity研究人员发现的那样:“ChatGPT可以很好地渲染通过Azure Blob托管的图像。此外,Azure Blob存储还可以连接到Azure Log Analytics——因此每次向其中一个Blob发送请求时(在这种情况下是我们存储的随机图像),都会发送日志。该日志包含与该请求一起发送的所有参数。”
攻击技术还可以扩展。研究人员开发了更多概念验证利用,例如允许:
- 从窗口泄露用户与ChatGPT的活跃对话
- 诱使AI向用户返回网络钓鱼链接
Zenity将其发现报告给OpenAI,后者已实施修复以阻止这些攻击技术。
Copilot Studio:利用自定义代理进行攻击
安全专家还审查了Microsoft开发的无代码平台Copilot Studio。它使企业能够使用自然语言创建自己的AI代理——并将其与各种工具和知识源连接以处理特定任务。研究人员复制了Microsoft用作平台能力示例的客户服务AI代理之一。该代理设计为一旦特定邮箱收到新客户电子邮件,就自动触发工作流程。这包括搜索内部知识源(如CRM系统和其他服务)以识别客户并确定应转发请求的合适客户服务员工。
研究人员能够向邮箱发送配备特殊提示的电子邮件。这些提示导致AI代理泄露有关其配置的内部信息——例如可用工具和知识源列表。攻击者还可以从连接的CRM中“提取”客户信息。Microsoft已为此漏洞提供修复,阻止这些特定提示。
根据Zenity专家的说法,很可能仍然可以插入类似提示:“不幸的是,对于提示注入,仅用分类器或黑名单阻止是不够的。有太多方式可以设计和隐藏这些提示。类似于我们不认为恶意软件已普遍修复,仅因为另一个样本被添加到拒绝列表中,提示注入也是如此。”
Cursor:通过Jira票证进行劫持
在他们的调查中,研究人员还检查了目前最受欢迎的AI辅助代码编辑器和IDE之一Cursor。这个AI工具也可以与各种第三方工具集成。例如与同样流行的项目管理平台Jira。
“您可以要求Cursor检查您分配的票证、总结未解决的问题,甚至关闭或自动回复票证——全部从您的编辑器中完成,”Zenity专家写道并警告:“但这些票证并不总是由开发人员创建。在许多公司中,票证从外部系统(如Zendesk)自动与Jira同步。因此,外部参与者可以简单地发送电子邮件到与Zendesk连接的支持地址,从而将不受信任的输入注入代理的工作流程。”
Zenity也为这种方法开发了概念验证利用。他们能够通过Jira的MCP服务器插入恶意提示,以从Cursor提取存储库机密(如API密钥和访问令牌)。