随着AI代理在企业工作流程中普及,任务专用自动化系统的局限性日益显现。大动作模型(LAM)作为基础架构层,通过提供通用感知、规划和执行能力,使代理系统能够跨多样化场景运作。
LAM标志着AI从被动内容生成转向主动任务执行。与擅长文本生成的LLM或结合文本视觉处理的VLM不同,LAM能在数字和物理环境中自主感知、规划并执行多步骤动作。其核心技术在于神经感知模块与符号规划器的神经符号架构结合,部分最新系统采用端到端神经网络实现。
2025年7月发布的ChatGPT代理成为首个统一LAM系统的生产级部署案例,整合了网页浏览、深度研究和终端访问功能,在Humanity’s Last Exam基准测试中达到41.6%准确率。该系统采用安全防护设计,底层LAM作为托管服务提供,不单独暴露模型接口。
应用场景包括:
- 消费领域:跨应用个人数据整合(如Gemini Live)、订餐叫车等个人助理服务
- 企业场景:IT/HR工作流自动化(如ServiceNow代理)、销售外联(如Alice代理)
- 专业领域:Excel复杂数据分析、独立编写测试代码(如Devin开发代理)
技术架构演进体现三大特征:
- 统一模型取代专用工具链,实现网页浏览、API连接等多模态交互
- 可编辑产物生成能力,保持跨工具上下文连续性
- 安全控制机制,包括关键操作确认流程和"监视模式"
企业部署经验表明:
- 知识工作自动化(竞品分析、财务建模)成效显著
- 每月400条消息的用量限制反映效率优化需求
- 生物风险防护和提示注入保护成为基础安全标准
当前LAM在明确定义场景表现良好,但面对现实环境的不确定性仍存在挑战。行业正从谨慎评估转向积极规划,安全敏感组织倾向于采用类似早期云战略的渐进式部署方案。