RT-2:将视觉与语言转化为行动的新模型
Robotic Transformer 2 (RT-2) 是一种新型视觉-语言-动作(VLA)模型,通过融合网络数据与机器人数据进行训练,并将学到的知识转化为通用化的机器人控制指令。大规模视觉语言模型(VLM)通常在网络级数据集上训练,擅长识别视觉或语言模式并跨语言操作。但要使机器人达到类似能力,需直接收集每个对象、环境、任务和情境下的机器人数据。
本研究基于Robotic Transformer 1(RT-1)——一个在多任务演示上训练的模型——能够学习机器人数据中见过的任务和对象组合。具体而言,研究使用了13台机器人在办公厨房环境中17个月收集的RT-1机器人演示数据。
RT-2展现出超越已接触机器人数据的改进泛化能力及语义与视觉理解能力,包括解释新命令、通过基础推理(如对象分类或高级描述推理)响应用户指令。研究还表明,引入思维链推理使RT-2能够执行多阶段语义推理,例如决定哪些物体可临时用作锤子(如石头),或哪种饮料最适合疲倦的人(如能量饮料)。
适配VLM用于机器人控制
RT-2基于接收一张或多张图像作为输入、并生成代表自然语言文本的令牌序列的VLM模型。此类VLM已成功在网络级数据上训练,用于执行视觉问答、图像描述或对象识别等任务。研究中采用Pathways Language and Image模型(PaLI-X)和Pathways Language model Embodied(PaLM-E)作为RT-2的主干网络。
为控制机器人,模型需训练输出动作。通过将动作表示为模型输出中的令牌(类似于语言令牌),并将动作描述为标准自然语言分词器可处理的字符串来解决这一挑战:
|
|
使用与RT-1相同的离散化机器人动作,并将其转换为字符串表示,使得VLM模型能够在机器人数据上训练——因为此类模型的输入和输出空间无需改变。
泛化与涌现技能
在超过6000次机器人试验中,对RT-2模型进行了一系列定性和定量实验。探索RT-2的涌现能力时,首先寻找需要结合网络级数据和机器人经验的任务,然后定义了三类技能:符号理解、推理和人类识别。
每项任务都需要理解视觉-语义概念并具备机器人控制能力以操作这些概念。例如“拾起即将从桌上掉落的袋子”或“将香蕉移到二加一的和的位置”等指令——要求机器人对从未在机器人数据中见过的对象或场景执行操作任务——需要从网络数据中转化知识来操作。
在所有类别中,观察到相较于RT-1和Visual Cortex(VC-1)等基线模型,泛化性能显著提升(超过3倍改进)。
定量评估与真实世界应用
在原始RT-1任务上进行了定量评估,这些任务在机器人数据中有示例,并继续测试了机器人未见过的对象、背景和环境的不同程度,要求机器人从VLM预训练中学习泛化。
RT-2在机器人数据中见过的原始任务上保持了性能,并在机器人未见过的场景中将性能从RT-1的32%提升至62%,显示了大规规模预训练的显著优势。此外,相较于仅视觉任务预训练的基线(如VC-1和R3M)及使用VLM进行对象识别的算法(如MOO),观察到显著改进。
在开源Language Table机器人任务套件上评估模型,在模拟中达到了90%的成功率,显著超过了BC-Z(72%)、RT-1(74%)和LAVA(77%)等基线。随后在真实世界中评估同一模型(因其在模拟和真实数据上训练),展示了其泛化到新对象的能力——除蓝色立方体外,所有对象均未出现在训练数据中。
思维链推理赋能长时程规划
受大型语言模型中思维链提示方法的启发,探索了将机器人控制与思维链推理结合,使单个模型能够学习长时程规划和低层技能。特别对RT-2变体进行了数百梯度步的微调,增强其联合使用语言和动作的能力。随后扩充数据以包含额外的“计划”步骤:首先用自然语言描述机器人即将执行动作的目的,然后是“动作”及动作令牌。
通过此过程,RT-2能够执行更复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。得益于其VLM主干,RT-2还能够从图像和文本命令进行规划,实现视觉接地规划,而当前的规划-执行方法(如SayCan)无法看到真实世界且完全依赖语言。
推动机器人控制发展
RT-2表明视觉语言模型(VLM)可转化为强大的视觉-语言-动作(VLA)模型,通过结合VLM预训练与机器人数据直接控制机器人。基于PaLM-E和PaLI-X的两个VLA实例,RT-2实现了高度改进的机器人策略,更重要的是,带来了显著更好的泛化性能和涌现能力,这些能力继承自网络级视觉-语言预训练。
RT-2不仅是对现有VLM模型的简单有效修改,还展示了构建通用物理机器人的潜力,这种机器人能够推理、解决问题和解释信息,以在真实世界中执行多样化任务。
本文基于某机构研究团队发表的学术论文内容,聚焦人工智能与机器人控制的技术实现与创新。