具身智能体开发代码与数据集发布

某中心发布Alexa Arena框架,提供仿真环境与数据集支持具身智能体开发,包含46万条标注指令、66万张场景图像,支持多房间导航、物体操作和自然语言交互,推动机器人任务规划与多模态推理技术发展。

某中心发布具身智能体开发代码与数据集

Alexa Arena是一个新型具身人工智能框架,致力于推动人机交互边界发展。该交互式、以用户为中心的框架可用于创建机器人任务,涉及多房间仿真环境导航及各类物体的实时操作。在游戏化场景中,用户可通过自然语言对话与虚拟机器人互动,协助机器人完成任务。该框架目前包含家庭、仓库和实验室的多房间布局集合。

核心功能与数据资源

Arena支持具身AI模型的训练与评估,并能基于人机交互生成新训练数据,助力开发具备任务规划、视觉对话、多模态推理、任务完成、可教学AI和会话理解等能力的通用具身智能体。公开发布资源包括:

  • Arena代码库(含仿真引擎组件和机器学习工具箱)
  • 具身智能体训练数据集
  • 集成视觉与语言规划任务的基准ML模型
  • 新性能排行榜用于评估未知任务表现

仿真引擎基于Unity游戏引擎构建,包含330+资产(涵盖冰箱、椅子等家用物品及叉车、软盘等特殊物品),提供20万+多房间场景,每个场景具有独特的房间规格和家具布局组合。场景支持随机化机器人初始位置、可移动物体摆放、地板材质及墙面颜色,通过监督学习和强化学习方法为训练提供丰富视觉变化。

交互体验与任务设计

为提升交互体验,Arena具备实时背景动画与音效、友好图形界面、流畅机器人导航(支持第一/第三人称视角切换)、任务完成条件中的危险项与前提条件设置、场景内机器人位置小地图及可配置提示机制。每个动作执行后生成RGB/深度相机图像、分割地图、机器人位置和错误代码等元数据。

支持通过挑战定义格式(CDF)编写长周期机器人任务(如"泡热茶"),可指定物体初始状态(如"橱柜门关闭")、需满足的目标条件(如"杯子装满牛奶或水")及场景特定位置的文本提示(如"检查冰箱是否有牛奶")。

数据集详情与模型性能

代码库包含两大数据集:

  1. 指令跟随数据集:4.6万条人工标注对话指令,含真实动作轨迹和机器人视角图像
  2. 视觉数据集:66万张图像,覆盖160+语义对象组,通过多视角多距离采集

训练的两个基准模型:

  • 神经符号模型:使用历史动作上下文和专用视觉模型
  • 具身视觉语言(EVL)模型:集成视觉语言编码器和多头部规划模块

使用任务成功率(MSR)评估显示,EVL模型达到34.20%的MSR,较神经符号模型提升14.9个百分点。澄清问答对话机制通过改进物体实例分割和视觉 grounding,使EVL模型性能提升11.6%。

应用与展望

该框架支撑Alexa Prize Simbot挑战赛,10支大学团队开发能通过语音指令完成任务的具身智能体。未来将继续作为关键工具推动通用AI和人机交互新时代的设备与机器人开发。


研究领域: 机器人技术、会话式AI
标签: 人机交互、数据集开发、移动机器人、AI挑战赛、神经信息处理系统会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计