下一代AI代理:大动作模型技术解析

本文深入解析大动作模型(LAM)作为新一代AI代理的核心架构,探讨其在多步骤任务执行、跨环境操作方面的技术突破,以及在企业工作流自动化中的实际应用案例与挑战。

随着AI代理在企业工作流程中普及,任务专用自动化系统的局限性日益显现。大动作模型(LAM)作为基础架构层,通过提供通用感知、规划和执行能力,使代理系统能够跨多样化场景运作。

LAM标志着AI从被动内容生成转向主动任务执行。与擅长文本生成的LLM或结合文本视觉处理的VLM不同,LAM能在数字和物理环境中自主感知、规划并执行多步骤动作。其核心技术在于神经感知模块与符号规划器的神经符号架构结合,部分最新系统采用端到端神经网络实现。

2025年7月发布的ChatGPT代理成为首个统一LAM系统的生产级部署案例,整合了网页浏览、深度研究和终端访问功能,在Humanity’s Last Exam基准测试中达到41.6%准确率。该系统采用安全防护设计,底层LAM作为托管服务提供,不单独暴露模型接口。

应用场景包括:

  • 消费领域:跨应用个人数据整合(如Gemini Live)、订餐叫车等个人助理服务
  • 企业场景:IT/HR工作流自动化(如ServiceNow代理)、销售外联(如Alice代理)
  • 专业领域:Excel复杂数据分析、独立编写测试代码(如Devin开发代理)

技术架构演进体现三大特征:

  1. 统一模型取代专用工具链,实现网页浏览、API连接等多模态交互
  2. 可编辑产物生成能力,保持跨工具上下文连续性
  3. 安全控制机制,包括关键操作确认流程和"监视模式"

企业部署经验表明:

  • 知识工作自动化(竞品分析、财务建模)成效显著
  • 每月400条消息的用量限制反映效率优化需求
  • 生物风险防护和提示注入保护成为基础安全标准

当前LAM在明确定义场景表现良好,但面对现实环境的不确定性仍存在挑战。行业正从谨慎评估转向积极规划,安全敏感组织倾向于采用类似早期云战略的渐进式部署方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计