具身智能开发框架与数据集发布

某中心发布Alexa Arena具身AI开发框架,包含仿真环境、46万条标注指令数据集及66万张视觉图像,支持多房间导航和实时物体操控,提供神经符号和视觉语言两种基准模型,助力通用化具身智能体开发。

Alexa Arena:用户中心的具身AI交互平台

某中心发布用于开发具身AI智能体的代码库和数据集。Alexa Arena作为新型具身AI框架,通过多房间仿真环境中的实时物体操控和自然语言对话交互,推动人机交互技术发展。

框架核心功能

  • 仿真环境:基于Unity引擎构建,包含330+家居/工业物体资产
  • 场景生成:20万+多房间场景,支持随机化物体布局、材质与色彩
  • 数据采集:提供46万条人类标注指令轨迹和66万张多视角场景图像
  • 任务定义:支持通过挑战定义格式(CDF)编写长周期任务逻辑

技术架构

框架包含两大基准模型:

  1. 神经符号模型:结合历史行动上下文与专用视觉模块
  2. 视觉语言模型(EVL):采用联合视觉语言编码器,支持任务规划与掩码预测

实验显示EVL模型任务完成率达34.2%,较神经符号模型提升14.9个百分点。引入澄清问答对话后,通过改进实例分割和视觉 grounding 进一步提升性能11.6%。

应用场景

该框架支撑Alexa Prize Simbot挑战赛,10支大学团队使用Echo Show/Fire TV设备开发能响应语音指令的具身智能体。所有代码、数据集和基准模型均已公开,同时推出性能排行榜用于评估未知任务表现。

框架详细技术文档与数据获取方式请参见某中心研究平台

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计