具身智能体开发代码与数据集发布

某中心发布具身智能体开发代码与数据集

Alexa Arena是一个新型具身人工智能框架，致力于推动人机交互边界发展。该交互式、以用户为中心的框架可用于创建机器人任务，涉及多房间仿真环境导航及各类物体的实时操作。在游戏化场景中，用户可通过自然语言对话与虚拟机器人互动，协助机器人完成任务。该框架目前包含家庭、仓库和实验室的多房间布局集合。

Arena支持具身AI模型的训练与评估，并能基于人机交互生成新训练数据，助力开发具备任务规划、视觉对话、多模态推理、任务完成、可教学AI和会话理解等能力的通用具身智能体。公开发布资源包括：

仿真引擎基于Unity游戏引擎构建，包含330+资产（涵盖冰箱、椅子等家用物品及叉车、软盘等特殊物品），提供20万+多房间场景，每个场景具有独特的房间规格和家具布局组合。场景支持随机化机器人初始位置、可移动物体摆放、地板材质及墙面颜色，通过监督学习和强化学习方法为训练提供丰富视觉变化。

为提升交互体验，Arena具备实时背景动画与音效、友好图形界面、流畅机器人导航（支持第一/第三人称视角切换）、任务完成条件中的危险项与前提条件设置、场景内机器人位置小地图及可配置提示机制。每个动作执行后生成RGB/深度相机图像、分割地图、机器人位置和错误代码等元数据。

支持通过挑战定义格式（CDF）编写长周期机器人任务（如"泡热茶"），可指定物体初始状态（如"橱柜门关闭"）、需满足的目标条件（如"杯子装满牛奶或水"）及场景特定位置的文本提示（如"检查冰箱是否有牛奶"）。

代码库包含两大数据集：

训练的两个基准模型：

使用任务成功率（MSR）评估显示，EVL模型达到34.20%的MSR，较神经符号模型提升14.9个百分点。澄清问答对话机制通过改进物体实例分割和视觉 grounding，使EVL模型性能提升11.6%。

该框架支撑Alexa Prize Simbot挑战赛，10支大学团队开发能通过语音指令完成任务的具身智能体。未来将继续作为关键工具推动通用AI和人机交互新时代的设备与机器人开发。

研究领域: 机器人技术、会话式AI
标签: 人机交互、数据集开发、移动机器人、AI挑战赛、神经信息处理系统会议