具身AI智能体开发框架与数据集发布
某中心最新推出Alexa Arena具身AI框架,该交互式平台专注于推动人机交互技术发展。框架提供多房间仿真环境与实时物体操作功能,用户可通过自然语言对话与虚拟机器人协同完成目标。
核心技术特性
仿真环境构建
- 基于Unity游戏引擎开发
- 包含330+家居/工业物体资产(从冰箱到叉车)
- 支持20万种多房间场景生成,每个场景具备独特的房间规格与家具布局
- 可随机化机器人初始位置、可移动物体摆放及环境材质
数据体系架构
- 指令跟随数据集:4.6万条人工标注对话指令,含真实动作轨迹与机器人视角图像
- 视觉数据集:66万张图像,覆盖160+语义对象组,包含多视角多距离采集样本
模型基准
- 神经符号模型:采用历史动作上下文与专用视觉模块
- 具身视觉语言(EVL)模型:整合视觉语言联合编码器与多头部规划系统
- 评估指标:任务成功率(MSR)达34.2%,较神经符号模型提升14.9个百分点
- 澄清问答对话机制可提升模型性能11.6%
应用场景
该框架支持:
- 长周期任务定义(如"泡热茶")
- 挑战定义格式(CDF)规范物体初始状态与目标条件
- 强化学习与监督学习方法训练
- 实时生成RGB/深度图像、分割地图及元数据
目前已应用于高校竞赛项目,10支团队正基于该平台开发能通过语音指令完成屏幕显示任务的具身智能体。该框架将持续推动通用人工智能与人机交互技术的新发展。