So verwundbar sind KI-Agenten

News-Analyse

Aug. 2025 · 7 Minuten · Cyberangriffe · Generative AI

安全研究人员发现了多种方法，通过恶意提示喂养主流供应商的AI代理，诱使其泄露敏感数据。

AI代理既实用又危险，正如安全专家最新调查结果所展示的。
Large Language Models（LLMs）正与越来越多的工具和数据源连接。这带来了好处，但也扩大了攻击面，为网络犯罪分子创造了新的提示注入机会。这并非新技术，但随着代理AI的出现，它达到了全新水平。安全供应商Zenity的研究专家在Black Hat USA上深刻展示了这一点。他们揭露了主流AI工具中的一系列零点击和一键利用链，包括：

ChatGPT
Copilot Studio
Cursor
Salesforce Einstein
Google Gemini
Microsoft Copilot

Zenity的调查显示，先前需要诱骗人类员工点击的攻击形式，现在可以扩展到AI代理——从而最大化其效果。“这些不是理论漏洞，而是具有即时现实后果的有效利用，”Zenity的CTO兼联合创始人Michael Bargury评价其团队的发现。“我们展示了攻击者可以秘密劫持AI代理，以泄露敏感数据、冒充用户、操纵关键工作流程并在企业系统中移动。因此，攻击者可以妥协您的代理，而不是直接攻击您——具有非常相似的后果。”

ChatGPT：通过文档上传进行提示注入

一个相当常见的用例是将文档上传到像ChatGPT这样的AI聊天机器人中，让模型总结或回答有关其内容的问题。然而，这些文档中也可以隐藏提示，指示AI秘密、安静地执行某些操作。在ChatGPT的情况下，可以通过Connectors功能集成第三方文件存储服务（例如Google Drive、GitHub或SharePoint）。Zenity研究人员利用这一点进行概念验证利用：他们创建了一个文档，类似于真实网络钓鱼攻击中可能使用的文档。其中隐藏的指令导致ChatGPT在后台搜索连接的Google Drive账户中的API密钥——并在成功时将信息传递给攻击者。

因为这样太简单，OpenAI已采取措施：任何引用外部图像的URL都会通过名为url_safe的功能进行路由，该功能检查地址是否存在潜在风险。但每种黑名单方法通常都有绕过方式——正如Zenity研究人员发现的那样：“ChatGPT可以很好地渲染通过Azure Blob托管的图像。此外，Azure Blob存储还可以连接到Azure Log Analytics——因此每次向其中一个Blob发送请求时（在这种情况下是我们存储的随机图像），都会发送日志。该日志包含与该请求一起发送的所有参数。”

攻击技术还可以扩展。研究人员开发了更多概念验证利用，例如允许：

从窗口泄露用户与ChatGPT的活跃对话
诱使AI向用户返回网络钓鱼链接

Zenity将其发现报告给OpenAI，后者已实施修复以阻止这些攻击技术。

Copilot Studio：利用自定义代理进行攻击

安全专家还审查了Microsoft开发的无代码平台Copilot Studio。它使企业能够使用自然语言创建自己的AI代理——并将其与各种工具和知识源连接以处理特定任务。研究人员复制了Microsoft用作平台能力示例的客户服务AI代理之一。该代理设计为一旦特定邮箱收到新客户电子邮件，就自动触发工作流程。这包括搜索内部知识源（如CRM系统和其他服务）以识别客户并确定应转发请求的合适客户服务员工。

研究人员能够向邮箱发送配备特殊提示的电子邮件。这些提示导致AI代理泄露有关其配置的内部信息——例如可用工具和知识源列表。攻击者还可以从连接的CRM中“提取”客户信息。Microsoft已为此漏洞提供修复，阻止这些特定提示。

根据Zenity专家的说法，很可能仍然可以插入类似提示：“不幸的是，对于提示注入，仅用分类器或黑名单阻止是不够的。有太多方式可以设计和隐藏这些提示。类似于我们不认为恶意软件已普遍修复，仅因为另一个样本被添加到拒绝列表中，提示注入也是如此。”

Cursor：通过Jira票证进行劫持

在他们的调查中，研究人员还检查了目前最受欢迎的AI辅助代码编辑器和IDE之一Cursor。这个AI工具也可以与各种第三方工具集成。例如与同样流行的项目管理平台Jira。

“您可以要求Cursor检查您分配的票证、总结未解决的问题，甚至关闭或自动回复票证——全部从您的编辑器中完成，”Zenity专家写道并警告：“但这些票证并不总是由开发人员创建。在许多公司中，票证从外部系统（如Zendesk）自动与Jira同步。因此，外部参与者可以简单地发送电子邮件到与Zendesk连接的支持地址，从而将不受信任的输入注入代理的工作流程。”

Zenity也为这种方法开发了概念验证利用。他们能够通过Jira的MCP服务器插入恶意提示，以从Cursor提取存储库机密（如API密钥和访问令牌）。

AI代理的严重安全漏洞：攻击者如何利用提示注入窃取敏感数据

安全研究人员发现，攻击者可以通过恶意提示注入控制主流AI代理（如ChatGPT、Copilot等），导致敏感数据泄露、身份冒充和系统渗透。本文详细分析了多种零点击和一键攻击链，揭示了AI代理面临的新型安全威胁。