从工具链到真正智能体系统的演进

本文深入探讨了大行动模型(LAMs)如何推动AI智能体从简单的工具链向真正的自主系统演进,涵盖技术架构、应用场景及企业部署考量,包括神经符号架构、多模态交互和安全控制等关键技术特性。

从工具链到真正的智能体系统

随着AI智能体在企业工作流程中变得普遍,团队正在发现从头构建特定任务自动化系统的局限性。大行动模型(LAMs)代表了改变我们构建智能体方式的基础层——提供通用感知、规划和执行能力,各个智能体可以利用这些能力,而不是重新发明。

LAMs代表了AI从被动内容生成向主动任务执行的转变。与擅长文本生成和理解的大语言模型(LLMs),或结合文本和视觉处理的视觉语言模型(VLMs)不同,LAMs被设计为在数字和物理环境中自主感知、规划和执行多步骤行动。虽然AI智能体能够执行特定的自动化任务,但LAMs作为基础架构,使更通用、语言驱动的智能体系统能够在多样化的上下文和应用中运行。

核心区别在于它们的操作方法。虽然LLMs可以描述航班预订,VLMs可以分析预订截图,但LAMs实际上可以导航网站并完成预订。也就是说,当前的实现在受控环境中效果最佳。许多LAMs通过将神经感知模块与符号规划器配对在神经符号架构中实现这种能力,尽管最近一些系统依赖于单一的端到端神经网络。

最近的发展验证了这种潜力。某中心于2025年7月推出的ChatGPT智能体代表了统一LAM系统的首次主要生产部署。通过将网页浏览能力、深度研究功能和终端访问结合在单一模型中,ChatGPT智能体展示了LAMs如何超越受控环境,处理跨不同应用的复杂多步骤工作流。该系统在"人类最后考试"(41.6%准确率)和"前沿数学"(27.4%准确率)等基准测试中实现了最先进的性能,同时保持了企业部署所需的安全控制。

在ChatGPT智能体的情况下,底层的大行动模型并未单独暴露;某中心将其作为带有安全防护的托管服务提供。纯粹主义者可能会说"LAM"是服务内部的模型,而"ChatGPT智能体"是由LAM驱动的智能体。

LAM应用场景谱系

大行动模型正在从概念转变为现实,处理曾经仅由人类执行的复杂多步骤行动序列。在消费者领域,这项技术正在移动集成中出现,如某机构的Gemini Live,它可以跨应用组织个人数据,以及个人助手如Motorola LAM或Rabbit R1,可以处理订餐或叫车等任务。然而,早期实施显示实际效果参差不齐。

同样的能力正被应用于简化业务运营。在企业内部,ServiceNow智能体自动化内部IT和HR工作流,而像11x的"Alice"等专业工具执行面向外部的任务,如潜在客户研究和销售拓展。类似地,像Shortcut这样的专业智能体正在出现,以自动化特定应用中的复杂知识工作,如在某中心Excel中执行多步骤数据建模和分析。

ChatGPT智能体的发布标志着LAM成熟度的重要里程碑,提供了首个广泛可用的统一系统,整合了多种能力。与早期的专业工具不同,ChatGPT智能体将视觉网页浏览、基于文本的研究、终端访问和API连接集成在单一模型中。这种架构方法实现了不同交互模式之间的无缝转换——通过API收集日历信息,通过文本处理分析网页内容,以及通过视觉界面操作完成交易。

对于开发团队来说,这代表了从集成多个专业智能体转向利用基础LAM,该LAM可以根据任务需求调整其方法。系统在工具切换时保持上下文的同时生成可编辑工件(演示文稿、电子表格、代码)的能力,展示了统一LAM架构相对于工具链方法的实用价值。

LAM的应用扩展到高度专业化和受监管的领域。在软件工程中,像Cognition Devin这样的AI开发者尝试独立编写、测试和调试代码,而像某中心AutoDev这样的框架协调智能体团队进行复杂编程项目。在医疗和金融等数据密集型行业,这些模型通过管理患者排期和保险索赔来减少行政负担,或通过执行实时欺诈分析和自动化监管申报来增强安全性和合规性。从控制制造车间中的工业机器人到导航网站和桌面应用程序,LAMs为新时代的数字和物理自动化提供了基础能力。

导航大行动模型领域

LAM领域已经围绕生产可行性形成,ChatGPT智能体为统一智能体系统建立了新基准。某中心决定停止独立的Operator工具,转而采用集成智能体方法,标志着行业向全面LAM平台而非专业工具的趋同。

对于评估LAM采用的企业团队来说,这种整合简化了决策矩阵。团队现在可以利用处理多模态交互的统一系统,而不是在单独的浏览、研究和自动化工具之间选择。来自ChatGPT智能体的性能指标——包括电子表格任务45.5%的准确率和网页研究基准68.9%的准确率——为能力评估提供了具体基线。

行业反应:承诺、怀疑和务实采用

在研究评估大行动模型的团队后,我看到了观点的分歧。一些企业团队似乎对他们看到的生产力提升 genuinely excited——特别是在工作流自动化方面,LAMs可以处理那些耗时的多步骤过程。但也有健康的怀疑态度,特别是在像Rabbit R1这样的一些高调消费产品起步不顺之后。讨论经常转向我们是否正在见证自主性的真正范式转变,或者只是更复杂、可能更脆弱的工具链形式包裹在新的营销中。

现实是,今天大多数LAM实现在狭窄、明确定义的场景中工作良好,但在现实世界环境的不可预测性中挣扎。成功故事通常来自精心控制的部署,其中行动范围有限且环境稳定。

ChatGPT智能体的发布已将行业情绪从谨慎评估转向略微更积极的规划。早期采用者报告在知识工作自动化方面特别成功——竞争分析、财务建模和演示生成——智能体结合研究和工件创建的能力提供了即时价值。然而,Pro用户每月400条消息的限制和其他层级40条的限制表明,即使生产LAMs也需要随着组织扩大采用而进行使用管理。

ChatGPT智能体集成安全控制——包括对重要行动的明确用户确认和用于关键任务(如电子邮件发送)的"观察模式"——解决了企业对自主系统的担忧。这些控制代表了LAM部署的务实方法,在启用常规工作流自动化的同时优先考虑用户监督。

随着LAMs变得更具可行性,安全意识强的组织可能会在接近LAMs时 mirror 他们早期的云采用策略,以定义其初始云策略的相同谨慎进行。扩展的攻击面担忧是真实的——当你给AI系统能力代表你在多个应用中行动时,你 essentially handing over the keys to your digital kingdom。同时,在客户服务和行政角色中,工作替代焦虑是明显的,尽管我的感觉是,将LAMs视为增强而非替代的团队往往有更顺利的采用体验。

企业级LAM的开发优先级

那么,我们从这里去哪里?ChatGPT智能体的部署揭示了LAM开发优先级的下一阶段。使用约束(每月40-400条消息)突显了需要在有限交互内最大化任务完成的效率优化。系统的功能,虽然有前景,显示工件生成需要显著改进以匹配专业标准。

企业采用将推动增强安全控制、审计跟踪和合规框架的需求。系统当前的生物风险保障和提示注入保护建立了未来LAMs必须满足或超过的基线安全期望。

来自ChatGPT智能体的实施经验

ChatGPT智能体的早期部署为计划LAM集成的团队提供了具体见解:

架构决策:统一模型方法(结合浏览、研究和终端访问)在用户体验方面被证明比微服务架构更有效,尽管安全控制和资源管理的复杂性增加。

使用模式:实际使用倾向于知识工作自动化——研究合成、文档生成和数据分析——而不是交易性网页交互。这表明LAM实施应优先考虑内容创建工作流而非电子商务自动化。

安全-性能权衡:对重要行动的明确确认要求创造了摩擦但实现了企业采用。实施LAMs的团队应计划批准工作流,以平衡自动化好处与组织风险容忍度。

集成策略:连接器框架(Gmail、GitHub集成)展示了LAMs如何扩展现有业务应用而不是替换它们。这种集成优先的方法减少了部署复杂性,同时最大化组织价值。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计