Alexa Arena:用户为中心的具身AI交互平台
某中心最新开发的具身AI框架Alexa Arena突破了人机交互的边界。该交互式平台支持创建涉及多房间模拟环境导航和实时物体操控的机器人任务。在游戏化场景中,用户可通过自然语言对话与虚拟机器人协作完成任务。当前框架包含家庭、仓库和实验室的多种多房间布局。
核心功能与技术实现
-
仿真引擎
- 基于Unity游戏引擎构建,包含330+个资产(从冰箱到叉车等常见/非常见物体)
- 20万+可随机生成的多房间场景,支持物体位置、地板材质等参数动态调整
- 实时生成RGB/深度图像、分割图、机器人位置等元数据
-
任务定义系统
- 采用挑战定义格式(CDF)编写长周期任务(如"泡热茶")
- 可设定初始状态(如"橱柜门关闭")、目标条件(如"杯子装满牛奶")及场景提示
-
数据集资源
- 指令跟随数据集:4.6万条人工标注对话指令及对应动作轨迹
- 视觉数据集:66万张图像,覆盖160+语义对象组的多视角采集
基准模型对比
- 神经符号模型:结合历史动作上下文与专用视觉模型
- 视觉语言模型(EVL):集成联合编码器与多头预测架构,任务成功率提升14.9%
- 实验显示澄清问答机制可使EVL模型性能再提升11.6%
应用场景
该框架正支撑某机构举办的Simbot挑战赛,10支高校团队开发能通过语音指令完成屏幕显示任务的具身代理。最终评测采用任务成功率(MSR)作为核心指标。
“未来几年,Arena框架将成为推动通用AI与人机交互新时代的关键工具” —— 某中心AI团队表示