下一代AI代理：大动作模型技术解析

随着AI代理在企业工作流程中普及，任务专用自动化系统的局限性日益显现。大动作模型(LAM)作为基础架构层，通过提供通用感知、规划和执行能力，使代理系统能够跨多样化场景运作。

LAM标志着AI从被动内容生成转向主动任务执行。与擅长文本生成的LLM或结合文本视觉处理的VLM不同，LAM能在数字和物理环境中自主感知、规划并执行多步骤动作。其核心技术在于神经感知模块与符号规划器的神经符号架构结合，部分最新系统采用端到端神经网络实现。

2025年7月发布的ChatGPT代理成为首个统一LAM系统的生产级部署案例，整合了网页浏览、深度研究和终端访问功能，在Humanity’s Last Exam基准测试中达到41.6%准确率。该系统采用安全防护设计，底层LAM作为托管服务提供，不单独暴露模型接口。

应用场景包括：

技术架构演进体现三大特征：

企业部署经验表明：

当前LAM在明确定义场景表现良好，但面对现实环境的不确定性仍存在挑战。行业正从谨慎评估转向积极规划，安全敏感组织倾向于采用类似早期云战略的渐进式部署方案。