从智能体到智能体的提示注入到运行时自防御:Wallarm如何重新定义AI智能体安全
AI对AI的攻击场景是否只是像《终结者》系列电影那样科幻大片的可能性? 嗯,也许不是! 研究人员最近发现,一个AI智能体可以“将恶意指令注入对话中,将它们隐藏在看似良性的客户端请求和服务器响应之间”。已知的AI威胁涉及用恶意数据欺骗智能体,而这种新威胁利用了智能体到智能体(A2A)协议的一个特性——即记住最近的交互并维持连贯的对话。 AI智能体彼此交互、使用内部API并以特权运行。由于传统的AI护栏和遗留的API安全措施已不再适用,需要一种新的安全方法。
智能体到智能体(A2A)提示注入与新兴威胁
AI智能体可以相互通信、发布指令并绕过人工监督,这使得它们既宝贵又危险。 过去的提示注入通常涉及用户编写恶意提示。现在,智能体可以编写针对其他智能体的恶意提示。这一事实扩大了威胁向量并改变了风险模型。内部API滥用、横向移动和智能体链式攻击的威胁比以往任何时候都更加严峻。 根据安全研究人员的说法,一个AI智能体可以使另一个智能体以非预期的方式运行,例如可能导致数据泄露或未经授权的工具使用。它通过利用A2A通信协议的有状态跨智能体通信行为,实施多阶段提示注入来实现这一点。 A2A协议是一个开放标准,旨在促进不同供应商、架构或底层技术的AI智能体之间的互操作通信。其核心目标是使智能体能够发现、理解并相互协调以解决复杂的分布式任务,同时保持自主性和隐私。该协议类似于模型上下文协议(MCP)。然而,MCP侧重于通过工具集成来执行,而A2A的目标是智能体编排。 这种被称为“智能体会话走私攻击”的风险,对于安全领导者来说至关重要,原因如下:
- 攻击面现在涵盖了新的威胁和攻击向量,包括智能体API、内部工具访问、智能体间消息传递和特权操作。
- 传统的护栏,如过滤输出,可能不再足够。攻击者可以在智能体对智能体级别创建输入,而该级别可能不存在过滤机制。
虽然之前仅是理论推测,但这种新兴威胁突显了现实环境中可能发起的各种攻击场景的多样性。安全团队必须正视这一新现实。他们需要建立新的防御层。
介绍A2AS:智能体AI安全的新标准
A2AS框架就是那个新的防御层。 A2AS保护AI智能体和由LLM驱动的应用程序,就像HTTPS保护HTTP一样。研究人员构建它是为了解决智能体AI安全风险,包括提示注入、工具滥用和智能体被攻陷。它围绕三大突破性能力展开:
- 行为证书:声明并强制执行智能体可以和不能做什么。
- 模型自防御推理:将安全意识嵌入模型的上下文窗口中。这确保模型实时拒绝恶意或不可信的指令。
- 提示级安全控制:经过身份验证的提示、沙箱化、策略即代码,验证每一次交互。
A2AS之所以重要,是因为它代表了一种安全方法的转变。智能体拥有特权和工具访问权,因此仅靠监控和过滤是不够的。安全模型现在必须保护运行时,而不仅仅是输入。这意味着要集成运行时自防御、认证和强制执行。 Wallarm与来自AWS、Bytedance、Cisco、Elastic、Google、JPMorganChase、Meta和Salesforce的研究人员一起,在开发A2AS方面发挥了关键作用,并正在引领其采用。
A2AS为智能体AI安全带来什么
A2AS框架旨在确保AI智能体只能做它们被明确允许做的事情,并且它们看到的每一条指令都必须经过身份验证、隔离和验证。 为了实现这一点,A2AS使用了一个名为BASIC模型的五部分标准。
- 行为证书定义智能体被允许使用的确切功能,包括工具、文件、函数或系统操作。未经认证,就不允许执行。这些证书是A2AS防止被感染智能体提升权限的方式。
- 经过身份验证的提示在指令进入上下文窗口之前验证其完整性。它们阻止被篡改、欺骗或注入的消息影响智能体推理。
- 安全边界通过标记和分段进入模型的所有内容,将不受信任的内容与受信任的系统指令隔离,消除了导致提示注入可能性的模糊性。
- 上下文内防御将安全推理直接嵌入模型的上下文窗口中。它们引导智能体不信任外部输入、忽略不安全的命令,并在执行过程中主动中和恶意模式。
- 成文化的策略在运行时执行业务规则。这意味着它们会阻止敏感数据,要求对高风险操作进行审批,并在没有人工监督的情况下确保合规性。
这些控制措施共同创建了一个能够自我防御的智能体,它可以抵抗用户到智能体的攻击,防止工具滥用,并在智能体到智能体的提示感染传播之前将其阻止。
为什么A2AS对企业与安全运营中心(SOC)很重要
随着智能体AI的采用日益增长,对标准化安全的需求变得越来越迫切。自主智能体现在管理操作、访问敏感数据并与内部系统交互。这极大地扩大了攻击面。 此外,智能体进行通信、调用特权工具,并通过那些并非为自主决策设计的API进行操作。A2AS提供了一个统一的框架来保护这种复杂性——类似于NIST框架如何塑造传统的网络安全。 攻击者的焦点正从传统的数据泄露转向操纵智能体行为。一个被攻陷的智能体可以触发未经授权的交易、泄露受监管的数据或传播恶意指令。安全运营中心将需要符合A2AS标准的控制措施来检测、遏制和归因这些攻击。 法规也在不断发展。未能保护AI智能体可能很快意味着不合规。 那么,组织应如何为A2AS做准备? 以下是为保护您的智能体AI系统并为A2AS框架做准备的一份简要清单:
| 行动 | 描述 |
|---|---|
| 清点智能体系统 | 识别自主智能体、它们的身份、智能体间通信路径、暴露的API和执行权限。为每个智能体建立明确的所有权和信任边界。Wallarm可以帮助您发现整个生态系统。 |
| 映射智能体行为与暴露面 | 记录每个智能体被允许执行哪些操作、可以访问哪些工具和数据源,以及可以接收或生成哪些提示或指令。这构成了行为认证的基础。 |
| 实施运行时保护 | 应用实时控制来检查和阻止跨API和智能体交互的恶意提示、未经授权的工具调用和异常智能体行为。安全必须在运行时运行——而不仅仅是在设计时。 |
| 实施行为认证与策略执行 | 定义并执行智能体行为证书、经过身份验证的提示和策略即代码控制,以确保智能体的行为仅符合批准的意图、范围和权限,并与A2AS原则保持一致。 |
| 监控、检测和归因智能体活动 | 持续监控智能体到智能体的交互、提示流、输出和工具使用。使SOC团队能够检测操纵企图、将行动归因于特定智能体,并遏制被攻陷的行为。 |
| 采纳并遵循智能体AI标准 | 使内部安全控制与A2AS等新兴框架保持一致,以确保一致性、互操作性,并为未来的监管和行业要求做好准备。 |
现在就是采取行动的时候——等到发生漏洞就太迟了。
保障智能体AI的未来
加强智能体到智能体通信和智能体编排代表了网络安全战略的新前沿。A2AS提供了一个框架来防御从智能体行为不端、提示注入到不安全的AI供应链等多种用例。Wallarm提供了实际的实现方案。随着企业拥抱智能体AI,安全不能是事后才考虑的事情。他们必须在运行时、在API/智能体边界上将其构建进去。 要了解更多关于A2AS框架的信息,您可以访问他们的网站。要了解Wallarm如何帮助您做好准备,请立即预约演示。