工程师为何对AI代理持保留态度
每个人都似乎认同:2025年将是AI代理最终接管的一年。自主性成了新的魔法词汇。
然而,对于一位构建过十多个生产级代理系统(从UI生成到DevOps自动化)的开发人员来说,这种说法并不成立。他认为问题不在于代理无法工作,而在于它们的工作方式与行业想象的不同。
在某机构的一次独家采访中,某中心的工程师Utkarsh Kanwat阐述了他为何仍然看好AI,但对完全自主的代理深表怀疑。他的理由基于数学、经济学和传统工程原则。
数字根本不成立
Kanwat论点的核心是一个残酷的事实:多步骤AI工作流会以指数方式放大错误。一个每步可靠性为95%的系统(对当前大型语言模型来说已经很高),在20个步骤中仅能实现36%的成功率。“这不是提示工程问题,而是数学现实,”他在一篇博客文章中写道。
Kanwat告诉某机构,他的第一个生产代理(一个函数生成器)在简单任务上表现良好,但在模糊性上彻底失败。
“它在复杂、模糊的需求上完全崩溃。这塑造了我关于构建验证层和人工审查的理念,”Kanwat说。
他认为成功在于围绕这些限制进行设计。例如,他的DevOps代理之所以有效,是因为它被分解为小而可独立验证的任务。人工确认门和回滚点将“自主性”转化为可管理的辅助。
这一理念不仅限于可靠性。令牌成本也是一堵无形的墙。
“每个后续操作都需要完整的对话上下文。在会话的第10次查询时,每个请求传递超过150,000个令牌,对于像某机构o1这样的模型,每个请求成本达数美元,”Kanwat描述一个失败的对话数据库代理时说道。令牌费用迅速超过了价值。
大多数代理失败的地方
工具设计,而非AI能力,往往决定代理系统是否能在生产中存活。Kanwat指出,许多代理公司“将工具视为人类接口,而非AI接口”。没有结构化反馈和部分故障处理,API调用成为死胡同。在他看来,代理仅完成约30%的工作。
当被要求详细说明时,他说:“70%是人员设计正确边界并创建代理能够实际理解和行动的反馈循环。”
甚至集成也是一个重要的前沿领域。“企业系统不是等待AI代理编排的干净API,”Kanwat写道。他的数据库代理不仅查询——还管理连接池、处理回滚、尊重副本并记录合规性。AI处理查询生成。其他一切都是系统工程。
他还指出了一个关键误解:好的演示反映好的产品。
“几乎所有演示都显示代理成功执行复杂工作流,因为它们是在受控环境中运行的策划场景。生产系统需要处理每个场景——包括您从未见过的场景。”
行业错误之处
Kanwat不认为炒作周期会对所有人都有好结果。
“风险投资支持的‘完全自主代理’初创公司将首先撞上经济墙,”他预测。将代理作为功能添加的企业供应商也可能因集成深度不足而挣扎。
当被问及谁做对了时,他提到了某机构。
“他们的宪法AI方法和安全优先部署的重点表明他们理解没有可靠性的能力是危险的,”他说。但他对任何吹嘘“完全自主”系统而未解决成本、故障或集成问题的人持怀疑态度。
他认为与当前时刻最相似的类比是区块链繁荣,炒作超过了实际应用。“AI代理根本不同——它们实际工作并解决真实问题。”
即使技术娴熟的市场中采用率相对较低,对他来说也不神秘。
“由于相对缺乏深度技术投资和基础设施,印度的采用率可能更低,”Kanwat指出。“我相信印度市场对新技术的资金更加保守。”
“人类保持控制”
Kanwat构建的最成功代理都遵循相同的剧本:让AI处理复杂转换,让人类控制关键决策点,并将一切包裹在稳健的软件工程中。
他的UI生成器有效是因为人类在部署前签字确认。他的CI/CD管道成功是因为回滚规则明确。他的数据库代理确认每个破坏性操作。“AI处理复杂性,人类保持控制,”他总结道。
他设想的未来不是“代理无处不在”,而是精心界定范围的AI工具,在边界内操作,具有可预测的经济性和从一开始就设计的可靠性。“无状态往往胜过有状态,”他建议。“用户更信任一致工作的工具,而不是偶尔创造奇迹的系统。”
那些仍在追求完全自主的人呢?他们可能会艰难地学习。“市场将学会演示良好的AI和可靠交付的AI之间的区别,”Kanwat总结道。“这种教育对许多公司来说将是昂贵的。”