Alexa Arena:用户中心的具身AI交互平台
某中心发布用于开发具身AI智能体的代码库和数据集。Alexa Arena作为新型具身AI框架,通过多房间仿真环境中的实时物体操控和自然语言对话交互,推动人机交互技术发展。
框架核心功能
- 仿真环境:基于Unity引擎构建,包含330+家居/工业物体资产
- 场景生成:20万+多房间场景,支持随机化物体布局、材质与色彩
- 数据采集:提供46万条人类标注指令轨迹和66万张多视角场景图像
- 任务定义:支持通过挑战定义格式(CDF)编写长周期任务逻辑
技术架构
框架包含两大基准模型:
- 神经符号模型:结合历史行动上下文与专用视觉模块
- 视觉语言模型(EVL):采用联合视觉语言编码器,支持任务规划与掩码预测
实验显示EVL模型任务完成率达34.2%,较神经符号模型提升14.9个百分点。引入澄清问答对话后,通过改进实例分割和视觉 grounding 进一步提升性能11.6%。
应用场景
该框架支撑Alexa Prize Simbot挑战赛,10支大学团队使用Echo Show/Fire TV设备开发能响应语音指令的具身智能体。所有代码、数据集和基准模型均已公开,同时推出性能排行榜用于评估未知任务表现。
框架详细技术文档与数据获取方式请参见某中心研究平台