2025年AI代理的残酷真相:为什么我押注反对全自主代理(尽管我在构建它们)

作者基于构建12+生产级AI代理系统的实战经验,揭示多步工作流中错误率指数级累积、二次令牌成本和经济不可行性等数学现实,指出成功系统的核心是有限边界、人类控制和传统工程可靠性。

为什么我押注反对2025年的AI代理(尽管我在构建它们)

我在开发、DevOps和数据操作领域构建了12个以上的生产AI代理系统。以下是为什么当前关于自主代理的炒作在数学上不可能实现,以及在实际生产中真正有效的方法。

三个关于AI代理的残酷真相

在构建了12个以上生产系统后,我学到了以下内容:

  1. 错误率在多步工作流中呈指数级累积。每步95%的可靠性意味着20步后成功率仅为36%。生产系统需要99.9%以上的可靠性
  2. 上下文窗口导致二次令牌成本增长。长对话在大规模使用时变得极其昂贵
  3. 真正的挑战不是AI能力,而是设计代理能够有效使用的工具和反馈系统

无人谈论的数学现实

每个AI代理公司都在回避这个令人不安的事实:错误累积使得自主多步工作流在生产规模上数学上不可能实现。

AI代理工作流中的错误累积

让我们计算一下:如果代理工作流中的每一步都有95%的可靠性(对当前LLM来说已经很乐观了),那么:

  • 5步 = 77%成功率
  • 10步 = 59%成功率
  • 20步 = 36%成功率

生产系统需要99.9%以上的可靠性。即使你神奇地达到每步99%的可靠性(目前无人做到),20步后也只有82%的成功率。这不是提示工程问题,也不是模型能力问题,这是数学现实。

我的DevOps代理之所以有效,正是因为它实际上不是一个20步的自主工作流。它是3-5个离散的、可独立验证的操作,具有明确的回滚点和人工确认点。“代理"处理生成基础设施代码的复杂性,但系统是围绕可靠性的数学约束构建的。

不划算的令牌经济学

代理布道者方便地忽略了另一个数学现实:上下文窗口产生二次成本扩展,使得对话代理在经济上不可行。

构建"对话式"代理时实际发生的情况:

  • 每个新交互都需要处理所有先前上下文
  • 令牌成本随对话长度呈二次方增长
  • 100轮对话仅令牌成本就达50-100美元
  • 乘以数千用户,经济性就不可持续

我的函数生成代理之所以成功,是因为它是完全无状态的:描述→函数→完成。无需维护上下文,无需跟踪对话,没有二次成本爆炸。这不是"与代码聊天"的体验,而是一个专注于高效解决特定问题的工具。

工具工程现实墙

即使你解决了数学问题,你还会遇到另一种障碍:为代理构建生产级工具是一个完全不同的工程学科,大多数团队都低估了这一点。

工具调用本身现在相当精确。真正的挑战是工具设计。每个工具都需要精心设计,以提供正确的反馈而不会压垮上下文窗口。你需要考虑:

  • 代理如何知道操作部分成功?如何在不消耗令牌的情况下传达复杂状态变化?
  • 当工具失败时,代理需要什么信息来恢复?太少会卡住,太多会浪费上下文
  • 如何处理相互影响的操作?数据库事务、文件锁、资源依赖

每个生产代理系统的肮脏秘密是:AI可能只做了30%的工作。另外70%是工具工程:设计反馈接口、高效管理上下文、处理部分故障,以及构建AI能够真正理解和使用的恢复机制。

集成现实检查

但假设你解决了可靠性和经济性问题。你仍然需要与现实世界集成,而现实世界是一团糟。

企业系统不是等待AI代理编排的干净API。它们是具有怪癖的传统系统,具有部分故障模式、无通知更改的身份验证流程、随时间变化的速率限制,以及不适合提示模板的合规要求。

承诺"与整个技术栈集成的自主代理"的公司要么过于乐观,要么没有真正尝试过大规模构建生产系统。集成是AI代理的葬身之地。

真正有效的方法(及原因)

在构建了十几个不同的代理系统后,我了解到成功的系统都有一个模式:

  • 我的UI生成代理有效是因为人类在部署前审查每个生成的界面
  • 我的数据库代理有效是因为它在执行前确认每个破坏性操作
  • 我的函数生成代理有效是因为它在明确定义的边界内操作
  • 我的DevOps自动化有效是因为它生成可以审查、版本控制和回滚的基础设施即代码
  • 我的CI/CD代理有效是因为每个阶段都有明确的成功标准和回滚机制

模式很明确:AI处理复杂性,人类保持控制,传统软件工程处理可靠性。

我的预测

我对2025年将遇到困难的公司的具体预测:

  • 风险投资支持的"完全自主代理"初创公司将首先遇到经济墙
  • 将"AI代理"附加到现有产品的企业软件公司将看到采用停滞
  • 获胜者将是构建受限的、特定领域工具的团队,这些工具使用AI处理困难部分,同时在关键决策上保持人类控制或严格边界

市场将学会区分演示良好的AI和可靠交付的AI。这种教育对许多公司来说将是昂贵的。

正确构建方法

如果你正在考虑使用AI代理构建,请从以下原则开始:

  • 定义清晰的边界
  • 为失败而设计
  • 解决经济性问题
  • 优先考虑可靠性而非自主性
  • 建立在坚实的基础上

代理革命即将到来。只是它看起来不会像2025年每个人承诺的那样。而这正是它会成功的原因。

实战经验教训

“演示有效"和"大规模有效"之间的差距是巨大的,大多数行业仍在摸索这一点。

如果你正在处理类似问题,我很愿意继续这场对话。关于代理可靠性、成本优化和集成复杂性的挑战是迷人的工程问题,目前还没有明显的解决方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计