某中心发布具身智能体开发代码与数据集
Alexa Arena是一个新型具身人工智能框架,致力于推动人机交互边界发展。该交互式、以用户为中心的框架可用于创建机器人任务,涉及多房间仿真环境导航及各类物体的实时操作。在游戏化场景中,用户可通过自然语言对话与虚拟机器人互动,协助机器人完成任务。该框架目前包含家庭、仓库和实验室的多房间布局集合。
核心功能与数据资源
Arena支持具身AI模型的训练与评估,并能基于人机交互生成新训练数据,助力开发具备任务规划、视觉对话、多模态推理、任务完成、可教学AI和会话理解等能力的通用具身智能体。公开发布资源包括:
- Arena代码库(含仿真引擎组件和机器学习工具箱)
- 具身智能体训练数据集
- 集成视觉与语言规划任务的基准ML模型
- 新性能排行榜用于评估未知任务表现
仿真引擎基于Unity游戏引擎构建,包含330+资产(涵盖冰箱、椅子等家用物品及叉车、软盘等特殊物品),提供20万+多房间场景,每个场景具有独特的房间规格和家具布局组合。场景支持随机化机器人初始位置、可移动物体摆放、地板材质及墙面颜色,通过监督学习和强化学习方法为训练提供丰富视觉变化。
交互体验与任务设计
为提升交互体验,Arena具备实时背景动画与音效、友好图形界面、流畅机器人导航(支持第一/第三人称视角切换)、任务完成条件中的危险项与前提条件设置、场景内机器人位置小地图及可配置提示机制。每个动作执行后生成RGB/深度相机图像、分割地图、机器人位置和错误代码等元数据。
支持通过挑战定义格式(CDF)编写长周期机器人任务(如"泡热茶"),可指定物体初始状态(如"橱柜门关闭")、需满足的目标条件(如"杯子装满牛奶或水")及场景特定位置的文本提示(如"检查冰箱是否有牛奶")。
数据集详情与模型性能
代码库包含两大数据集:
- 指令跟随数据集:4.6万条人工标注对话指令,含真实动作轨迹和机器人视角图像
- 视觉数据集:66万张图像,覆盖160+语义对象组,通过多视角多距离采集
训练的两个基准模型:
- 神经符号模型:使用历史动作上下文和专用视觉模型
- 具身视觉语言(EVL)模型:集成视觉语言编码器和多头部规划模块
使用任务成功率(MSR)评估显示,EVL模型达到34.20%的MSR,较神经符号模型提升14.9个百分点。澄清问答对话机制通过改进物体实例分割和视觉 grounding,使EVL模型性能提升11.6%。
应用与展望
该框架支撑Alexa Prize Simbot挑战赛,10支大学团队开发能通过语音指令完成任务的具身智能体。未来将继续作为关键工具推动通用AI和人机交互新时代的设备与机器人开发。
研究领域: 机器人技术、会话式AI
标签: 人机交互、数据集开发、移动机器人、AI挑战赛、神经信息处理系统会议