AI领域的异常常态化

AI行业正面临重蹈航天飞机挑战者号灾难覆辙的风险：在技术进步的同时，悄然将预警信号常态化。

“异常常态化”这一术语源于美国社会学家黛安·沃恩，她将其描述为“偏离正确或恰当行为或规则的过程在文化上被常态化”的现象。

我使用“AI领域的异常常态化”来描述对大型语言模型输出的逐渐且系统性的过度依赖，尤其是在代理系统中。

从本质上讲，大语言模型是系统设计中不可靠的参与者。这意味着安全控制必须在LLM输出之后实施。持续不断的间接提示注入漏洞利用演示表明，系统设计者和开发者要么没有意识到这一点，要么简单地接受了这种异常。当供应商默认为其用户群做出不安全的决策时，这种情况尤其危险。

我第一次了解到这个概念是在航天飞机挑战者号灾难的背景下，当时对警告的系统性常态化导致了悲剧。尽管数据显示在较低温度下存在侵蚀问题，但由于之前的飞行都成功了，偏离安全标准的行为被反复合理化。没有发生灾难被错误地等同于安全。

不可信的LLM输出

在AI领域，我们观察到一些公司将概率性、非确定性、有时甚至是对抗性的模型输出视为可靠、可预测且安全的。供应商正在将信任LLM输出常态化，但目前的认知违反了可靠性假设。模型不会始终遵循指令、保持对齐或维持上下文完整性。如果有攻击者在其中，情况尤其如此。

然而，我们看到越来越多的系统允许不可信的输出执行重要操作。大多数时候情况顺利，久而久之，供应商和组织就会放松警惕，或完全跳过人工监督，因为“上次成功了”。这种危险的偏见是常态化的燃料：组织将没有发生成功攻击与存在稳健的安全性混为一谈。

这种方式对系统的影响可能体现在两个方面：

我们已经看到代理在日常使用中犯下错误，例如格式化硬盘、创建随机的GitHub问题或清空生产数据库。所以，迹象已经存在。这本质上是危险的，不仅因为像间接提示注入这样的攻击，还因为这些系统是在互联网上海量不可信数据集上训练的。

试想一个“异常常态化”带来严重后果的场景：攻击者在模型中植入后门，在特定日期触发以调用工具，例如通过代码执行危害用户。由于我们有一个相当集中的生态系统，攻击通常可以转移，并且自然语言能被LLMs普遍理解，这可能对许多系统和供应商造成影响。

这种漂移并非源于一次鲁莽的决定。它通过一系列“临时”的捷径发生，这些捷径悄然成为新的基线。因为系统继续运行，团队不再质疑这些捷径，偏差变得不可见并成为新的规范。尤其是在自动化竞争、成本节约、争当第一的压力以及整体炒作下，这种危险的漂移显而易见。

以下是一些现实世界AI代理系统中这种趋势的反映。

我们都知道聊天机器人有“AI可能犯错”、“请核对回复”等免责声明，我们可以实时观察到常态化漂移的发生。在ChatGPT发布三年后，供应商向用户推广代理AI，但同时供应商又强调你的系统可能被同一个AI攻陷——这种漂移，这种常态化，就是我所说的“AI领域的异常常态化”。

这种持续的漂移是长期的危险：

微软代理操作系统：微软的文档警告称，提示注入攻击“可能覆盖代理指令，导致数据外泄或恶意软件安装等意外行为”，并且“代理可能执行超出用户预期的操作”。
OpenAI ChatGPT Atlas：供应商记录表明，系统在浏览网页时可能犯错。OpenAI建议：“我们建议在需要加强合规性和安全控制的场景中谨慎使用Atlas。”
Anthropic Claude：存在数据外泄风险。Anthropic建议用户监控Claude的使用，并在看到异常数据访问时点击“停止”按钮。
Google Antigravity：产品首发时已知存在通过间接提示注入实现远程代码执行以及数据外泄的问题。
Windsurf Cascade编码代理：其MCP工具调用缺乏“人在回路”功能。这可能导致在高风险情境中过度信任AI输出，使危险做法常态化。

虽然一些供应商承认风险，但其他供应商似乎忽视或轻描淡写，可能是由于竞争压力以及对产品和客户获取的关注。在许多情况下，我们可能集体寄希望于“有人”会解决这些安全和保障挑战。

然而，在我们漂向一个拥有代理AI的乌托邦未来之前，我认为最好、最安全的结果是围绕能力和控制机制保持现实，并且让AI保持由人类主导，尤其是在高风险情境中。

这是否意味着AI注定失败？不，当然不是。AI潜力巨大，许多低风险工作流今天就可以实现。即使是高风险工作流，也可以通过适当的威胁建模、缓解措施和监督来完成。但这需要投资和资源来相应地设计和建立系统，并应用安全控制。

许多人希望“模型会做正确的事”，但“假设被攻破”原则告诉我们，在某些时候，它肯定不会那样做。