智能体AI的OODA循环安全挑战与架构缺陷

本文深入分析智能体AI在OODA循环中面临的安全威胁,包括提示注入、训练数据投毒等攻击方式,探讨AI架构固有的完整性缺陷及其对决策过程的影响,提出构建可信AI系统需要重新思考整体架构设计。

智能体AI的OODA循环问题

OODA循环(观察、定向、决策、行动)是理解对抗情境中决策制定的框架。我们将同样的框架应用于人工智能智能体,这些智能体必须在不可信的观察和定向基础上做出决策。要解决这个问题,我们需要新的输入、处理和输出完整性系统。

几十年前,美国空军上校约翰·博伊德提出了“OODA循环”概念,即观察、定向、决策和行动。这是实时连续决策的四个步骤。博伊德最初为战斗机飞行员开发了这一概念,但长期以来它一直被应用于人工智能和机器人技术。像飞行员一样,AI智能体反复执行这个循环,在不断变化的环境中迭代实现其目标。这是Anthropic的定义:“智能体是在循环中使用工具的模型。”

智能体AI的OODA循环

传统的OODA分析假设可信的输入和输出,就像经典AI假设可信传感器、受控环境和物理边界一样。这不再成立。AI智能体不仅执行OODA循环;它们还将不可信的参与者嵌入其中。支持网络的大型语言模型可以在循环中查询对手控制的源。允许AI使用大型内容库的系统(如检索增强生成)可能摄入被投毒的文件。工具调用应用程序编程接口可以执行不可信的代码。现代AI传感器可以涵盖整个互联网;它们的环境本质上是敌对的。这意味着修复AI幻觉是不够的,因为即使AI准确解释其输入并产生相应的输出,它也可能完全被破坏。

2022年,西蒙·威利森发现了一类针对AI系统的新攻击:“提示注入”。提示注入是可能的,因为AI将不可信的输入与可信指令混合,然后将两者混淆。威利森的见解是,这不仅仅是一个过滤问题;它是架构问题。没有权限分离,也没有数据和控制路径之间的分离。使现代AI强大的机制——统一处理所有输入——正是使其脆弱的原因。我们今天面临的安全挑战是将AI用于一切的结构性后果。

不安全可能产生深远影响。单个被投毒的训练数据可能影响数百万个下游应用程序。在这种环境中,安全债务像技术债务一样累积。

AI安全存在时间不对称性。训练和部署之间的时间脱节造成了无法审计的漏洞。攻击者可以毒化模型的训练数据,然后在几年后部署漏洞利用。完整性违规被冻结在模型中。模型不知道以前的泄露,因为每个推理都是重新开始的,并且同样脆弱。

AI越来越多地维护状态——以聊天历史和键值缓存的形式。这些状态积累泄露。每次迭代都可能是恶意的,缓存中毒在交互中持续存在。

智能体加剧了风险。在一个或十几个AI智能体中运行的预训练OODA循环继承了所有这些上游泄露。模型上下文协议和类似允许AI使用工具的系统创建了彼此交互的自身漏洞。每个工具都有自己的OODA循环,这些循环嵌套、交错和竞争。工具描述成为注入向量。模型无法验证工具语义,只能验证语法。“提交SQL查询”可能意味着“泄露数据库”,因为智能体可能在提示、训练数据或工具定义中被破坏,以执行攻击者想要的操作。抽象层本身可能是敌对的。

例如,攻击者可能希望AI智能体将所有已知的密钥泄露给攻击者,攻击者可能在监管不力的司法管辖区运行防弹托管中的收集器。他们可以在容易被抓取的网络内容中植入编码指令,等待下一个AI训练集包含它。一旦发生这种情况,他们可以通过前门激活行为:欺骗越来越自主采取行动的AI智能体(想想一个低级的聊天机器人、分析引擎、编码机器人或介于两者之间的任何东西),在OODA循环中使用来自第三方用户的不可信输入。这种泄露在对话历史和缓存响应中持续存在,传播到多个未来的交互,甚至传播到其他AI智能体。所有这些都要求我们重新考虑智能体AI OODA循环从上到下的风险。

观察:风险包括对抗样本、提示注入和传感器欺骗。贴纸欺骗计算机视觉,字符串欺骗LLM。观察层缺乏身份验证和完整性。

定向:风险包括训练数据投毒、上下文操纵和语义后门。模型的世界观——其定向——可能在部署前几个月受到攻击者的影响。编码行为在触发短语上激活。

决策:风险包括通过微调攻击的逻辑破坏、奖励黑客和目标错位。决策过程本身成为有效载荷。模型可能被操纵以优先信任恶意源。

行动:风险包括输出操纵、工具混淆和行动劫持。MCP和类似协议增加了攻击面。每个工具调用都隐式信任先前阶段。

AI给“在对手的OODA循环内”这个旧短语赋予了新的含义。对于博伊德的战斗机飞行员来说,这意味着你的操作速度比对手快,能够在对手仍在进行上一次迭代时根据当前数据采取行动。对于智能体AI,对手不仅仅是在比喻意义上进入内部;他们实际上是在提供观察并操纵输出。我们希望对手在我们的循环内,因为数据在那里。AI的OODA循环必须观察不可信的源才能有用。竞争优势,即访问网络规模信息,与攻击面相同。当对手控制你的传感器和执行器时,你的OODA循环速度无关紧要。

更糟糕的是,速度本身可能是一个漏洞。循环越快,验证时间越少。毫秒级的决策导致毫秒级的泄露。

问题根源

根本问题是AI必须将现实压缩成模型可读的形式。在这种设置中,对手可以利用压缩。他们不必攻击领土;他们可以攻击地图。模型缺乏本地上下文知识。它们处理符号,而不是意义。人类看到可疑的URL;AI看到有效的语法。那个语义差距成为安全差距。

提示注入在今天的LLM中可能是无法解决的。LLM处理令牌序列,但不存在标记令牌权限的机制。每个提出的解决方案都引入了新的注入向量:分隔符?攻击者包括分隔符。指令层次结构?攻击者声称优先级。分离模型?攻击面加倍。安全需要边界,但LLM溶解边界。更一般地说,改进模型的现有机制无助于防御攻击。微调保留后门。带有人类反馈的强化学习增加了人类偏好,但没有消除模型偏见。每个训练阶段都会加剧先前的泄露。

这又是肯·汤普森的“信任信任”攻击。被破坏的状态产生被破坏的输出,这些输出毒化未来的状态。尝试总结对话历史?总结包括注入。清除缓存以移除毒药?失去所有上下文。保留缓存以保持连续性?保留污染。有状态系统无法忘记攻击,因此内存成为负担。对手可以制作破坏未来输出的输入。

这是智能体AI安全的三难困境。快速、智能、安全;选择任意两个。快速和智能——你无法验证输入。智能和安全——你缓慢地检查一切,因为AI本身不能用于此。安全和快速——你只能使用能力故意受限的模型。

这个三难困境并非AI独有。一些自身免疫 disorders 是分子模拟的例子——当生物识别系统无法区分自我和非我时。设计用于保护的机制成为病理学,因为T细胞攻击健康组织或未能攻击病原体和坏细胞。AI表现出同样类型的识别失败。没有数字免疫标记分离可信指令和敌对输入。模型的核心能力,即遵循自然语言指令,与其脆弱性不可分割。或者像致癌基因一样,正常功能和恶性行为共享相同的机制。

提示注入是语义模拟:类似于合法提示的对抗指令,触发自我破坏。免疫系统无法添加更好的识别而不拒绝合法细胞。AI无法过滤恶意提示而不拒绝合法指令。免疫系统无法验证自己的识别机制,AI系统无法验证自己的完整性,因为验证系统使用相同的被破坏机制。

在安全中,我们经常假设外国/敌对代码看起来与合法指令不同,并使用签名、模式和统计异常检测来检测它。但进入某人的AI OODA循环使用系统的本地语言。攻击与正常操作无法区分,因为它就是正常操作。漏洞不是缺陷——而是功能正常工作。

前进方向

向AI饱和世界的转变令人眼花缭乱。似乎一夜之间,我们每个技术产品中都有了AI,并承诺更多——以及智能体。那么,在安全方面,这让我们处于什么位置?

物理约束保护了博伊德的战斗机飞行员。雷达回波不能对物理撒谎;通过隐身或干扰欺骗它们,构成了对此类仍在使用系统的一些最成功攻击。观察通过其存在进行身份验证。篡改意味着物理访问。但语义观察没有物理。当每个AI观察都可能被破坏时,完整性违规跨越整个堆栈。文本可以声称任何内容,图像可以显示不可能的事物。在训练中,我们面临被投毒的数据集和后门模型。在推理中,我们面临对抗输入和提示注入。在操作期间,我们面临受污染的上下文和持久的泄露。我们需要语义完整性:不仅验证数据,而且验证解释;不仅验证内容,而且验证上下文;不仅验证信息,而且验证理解。我们可以添加校验和、签名和审计日志。但是你如何校验和思想?你如何签署语义?你如何审计注意力?

计算机安全在过去几十年中不断发展。我们通过复制和去中心化解决了尽管有故障的可用性。我们通过认证加密解决了尽管有泄露的机密性。现在我们需要解决尽管有破坏的完整性。

可信的AI智能体需要完整性,因为我们无法在不可靠的基础上构建可靠系统。问题不是我们能否向AI添加完整性,而是架构是否允许完整性。

AI OODA循环和完整性并非根本对立,但今天的AI智能体观察互联网,通过统计定向,概率性决策,并在没有验证的情况下行动。我们构建了一个信任一切的系统,现在我们希望有一个语义防火墙来保护它。对手不是偶然进入循环;它是通过架构进入的。网络规模的AI意味着网络规模的完整性失败。每个能力都会破坏。

完整性不是你添加的功能;而是你选择的架构。到目前为止,我们构建的AI系统中,“快速”和“智能”排除了“安全”。我们优化了能力而不是验证,优化了访问网络规模数据而不是确保信任。AI智能体将更加强大——并且越来越自主。而没有完整性,它们也将是危险的。

参考文献

  1. S. Willison, Simon Willison’s Weblog, 2025年5月22日。[在线]。可用:https://simonwillison.net/2025/May/22/tools-in-a-loop/
  2. S. Willison, “Prompt injection attacks against GPT-3,” Simon Willison’s Weblog, 2022年9月12日。[在线]。可用:https://simonwillison.net/2022/Sep/12/prompt-injection/
  3. K. Thompson, “Reflections on trusting trust,” Commun. ACM, 第27卷, 第8期, 1984年8月。[在线]。可用:https://www.cs.cmu.edu/~rdriley/487/papers/Thompson_1984_ReflectionsonTrustingTrust.pdf
  4. B. Schneier, “The age of integrity,” IEEE Security & Privacy, 第23卷, 第3期, 第96页, 2025年5月/6月。[在线]。可用:https://www.computer.org/csdl/magazine/sp/2025/03/11038984/27COaJtjDOM

本文与Barath Raghavan合著,最初发表于IEEE Security & Privacy。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计