谷歌DeepMind推出首款具备"思考"能力的机器人AI

谷歌DeepMind发布Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款新型机器人AI模型,首次在机器人领域实现模拟推理能力。这些模型基于Gemini基础模型构建,能够通过视觉和文本输入生成机器人动作,实现跨不同机器人平台的技能迁移。

谷歌DeepMind推出首款"思考"机器人AI

生成式AI系统如今已能普遍生成文本、图像、音频甚至视频。同样地,AI模型也可用于输出机器人动作。这正是谷歌DeepMind Gemini Robotics项目的基础,该项目宣布了两款协同工作的新模型,创造了首批在行动前会"思考"的机器人。

生成式AI解锁机器人通用功能

DeepMind团队认为,生成式AI对机器人技术具有独特重要性,因为它能解锁通用功能。目前的机器人需要针对特定任务进行强化训练,且通常无法执行其他任务。“如今的机器人高度定制化且难以部署,往往需要数月时间才能安装完成一个仅能执行单一任务的单元,“谷歌DeepMind机器人负责人Carolina Parada表示。

生成式系统的基础特性使AI驱动的机器人更具通用性。它们能够应对全新的情境和工作空间,而无需重新编程。DeepMind当前的机器人方法依赖两个模型:一个负责思考,一个负责执行。

双模型架构:思考与执行分离

这两款新模型分别称为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是视觉-语言-动作(VLA)模型,意味着它使用视觉和文本数据来生成机器人动作。另一个模型中的"ER"代表具身推理(embodied reasoning),这是一个视觉-语言模型(VLM),通过接收视觉和文本输入来生成完成复杂任务所需的步骤。

Gemini Robotics-ER 1.5是首款能够进行模拟推理的机器人AI,类似于现代基于文本的聊天机器人——谷歌喜欢称此为"思考”,但在生成式AI领域这个说法略有不当。DeepMind表示,ER模型在学术和内部基准测试中均获得最高评分,表明它能够就如何与物理空间交互做出准确决策。但它不执行任何动作,这正是Gemini Robotics 1.5的用武之地。

实际应用示例

假设你需要机器人将一堆衣物按白色和彩色分类。Gemini Robotics-ER 1.5会处理请求以及物理环境(一堆衣物)的图像。该AI还可以调用Google搜索等工具来收集更多数据。ER模型随后生成自然语言指令,即机器人完成给定任务应遵循的具体步骤。

Gemini Robotics 1.5(动作模型)接收来自ER模型的这些指令,在利用视觉输入引导其运动的同时生成机器人动作。但它也会通过自身的思考过程来考虑如何执行每个步骤。“存在各种直觉思维帮助人类指导任务,但机器人没有这种直觉,“DeepMind的Kanishka Rao表示。“我们在VLA 1.5版本中取得的主要进展之一,就是它在行动前能够进行思考的能力。”

技术基础与跨平台能力

DeepMind的两款新机器人AI均基于Gemini基础模型构建,但通过适应物理空间操作的数据进行了微调。团队表示,这种方法使机器人能够执行更复杂的多阶段任务,为机器人技术带来了智能体能力。

DeepMind团队使用几台不同的机器测试Gemini机器人技术,如双臂Aloha 2和人形Apollo。过去,AI研究人员必须为每个机器人创建定制模型,但现在已无必要。DeepMind表示,Gemini Robotics 1.5能够跨不同实体进行学习,将从Aloha 2的夹爪学到的技能迁移到Apollo更复杂的手部,而无需专门调整。

当前可用性

尽管关于由AI驱动的物理智能体的讨论令人兴奋,但我们距离能够命令机器人处理洗衣的日子还很遥远。实际控制机器人的Gemini Robotics 1.5目前仅向受信任的测试者开放。然而,负责思考的ER模型正在Google AI Studio中推出,允许开发者为自己的实体机器人实验生成机器人指令。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计