为什么我押注反对2025年的AI代理（尽管我在构建它们）

我在开发、DevOps和数据操作领域构建了12个以上的生产AI代理系统。以下是为什么当前关于自主代理的炒作在数学上不可能实现，以及在实际生产中真正有效的方法。

三个关于AI代理的残酷真相

在构建了12个以上生产系统后，我学到了以下内容：

错误率在多步工作流中呈指数级累积。每步95%的可靠性意味着20步后成功率仅为36%。生产系统需要99.9%以上的可靠性
上下文窗口导致二次令牌成本增长。长对话在大规模使用时变得极其昂贵
真正的挑战不是AI能力，而是设计代理能够有效使用的工具和反馈系统

无人谈论的数学现实

每个AI代理公司都在回避这个令人不安的事实：错误累积使得自主多步工作流在生产规模上数学上不可能实现。

AI代理工作流中的错误累积

让我们计算一下：如果代理工作流中的每一步都有95%的可靠性（对当前LLM来说已经很乐观了），那么：

5步 = 77%成功率
10步 = 59%成功率
20步 = 36%成功率

生产系统需要99.9%以上的可靠性。即使你神奇地达到每步99%的可靠性（目前无人做到），20步后也只有82%的成功率。这不是提示工程问题，也不是模型能力问题，这是数学现实。

我的DevOps代理之所以有效，正是因为它实际上不是一个20步的自主工作流。它是3-5个离散的、可独立验证的操作，具有明确的回滚点和人工确认点。“代理"处理生成基础设施代码的复杂性，但系统是围绕可靠性的数学约束构建的。

不划算的令牌经济学

代理布道者方便地忽略了另一个数学现实：上下文窗口产生二次成本扩展，使得对话代理在经济上不可行。

构建"对话式"代理时实际发生的情况：

每个新交互都需要处理所有先前上下文
令牌成本随对话长度呈二次方增长
100轮对话仅令牌成本就达50-100美元
乘以数千用户，经济性就不可持续

我的函数生成代理之所以成功，是因为它是完全无状态的：描述→函数→完成。无需维护上下文，无需跟踪对话，没有二次成本爆炸。这不是"与代码聊天"的体验，而是一个专注于高效解决特定问题的工具。

工具工程现实墙

即使你解决了数学问题，你还会遇到另一种障碍：为代理构建生产级工具是一个完全不同的工程学科，大多数团队都低估了这一点。

工具调用本身现在相当精确。真正的挑战是工具设计。每个工具都需要精心设计，以提供正确的反馈而不会压垮上下文窗口。你需要考虑：

代理如何知道操作部分成功？如何在不消耗令牌的情况下传达复杂状态变化？
当工具失败时，代理需要什么信息来恢复？太少会卡住，太多会浪费上下文
如何处理相互影响的操作？数据库事务、文件锁、资源依赖

每个生产代理系统的肮脏秘密是：AI可能只做了30%的工作。另外70%是工具工程：设计反馈接口、高效管理上下文、处理部分故障，以及构建AI能够真正理解和使用的恢复机制。

集成现实检查

但假设你解决了可靠性和经济性问题。你仍然需要与现实世界集成，而现实世界是一团糟。

企业系统不是等待AI代理编排的干净API。它们是具有怪癖的传统系统，具有部分故障模式、无通知更改的身份验证流程、随时间变化的速率限制，以及不适合提示模板的合规要求。

承诺"与整个技术栈集成的自主代理"的公司要么过于乐观，要么没有真正尝试过大规模构建生产系统。集成是AI代理的葬身之地。

真正有效的方法（及原因）

在构建了十几个不同的代理系统后，我了解到成功的系统都有一个模式：

我的UI生成代理有效是因为人类在部署前审查每个生成的界面
我的数据库代理有效是因为它在执行前确认每个破坏性操作
我的函数生成代理有效是因为它在明确定义的边界内操作
我的DevOps自动化有效是因为它生成可以审查、版本控制和回滚的基础设施即代码
我的CI/CD代理有效是因为每个阶段都有明确的成功标准和回滚机制

模式很明确：AI处理复杂性，人类保持控制，传统软件工程处理可靠性。

我的预测

我对2025年将遇到困难的公司的具体预测：

风险投资支持的"完全自主代理"初创公司将首先遇到经济墙
将"AI代理"附加到现有产品的企业软件公司将看到采用停滞
获胜者将是构建受限的、特定领域工具的团队，这些工具使用AI处理困难部分，同时在关键决策上保持人类控制或严格边界

市场将学会区分演示良好的AI和可靠交付的AI。这种教育对许多公司来说将是昂贵的。

正确构建方法

如果你正在考虑使用AI代理构建，请从以下原则开始：

定义清晰的边界
为失败而设计
解决经济性问题
优先考虑可靠性而非自主性
建立在坚实的基础上

代理革命即将到来。只是它看起来不会像2025年每个人承诺的那样。而这正是它会成功的原因。

实战经验教训

“演示有效"和"大规模有效"之间的差距是巨大的，大多数行业仍在摸索这一点。

如果你正在处理类似问题，我很愿意继续这场对话。关于代理可靠性、成本优化和集成复杂性的挑战是迷人的工程问题，目前还没有明显的解决方案。

2025年AI代理的残酷真相：为什么我押注反对全自主代理（尽管我在构建它们）

作者基于构建12+生产级AI代理系统的实战经验，揭示多步工作流中错误率指数级累积、二次令牌成本和经济不可行性等数学现实，指出成功系统的核心是有限边界、人类控制和传统工程可靠性。