利用视觉语言基础模型实现家用机器人物体定位
远程物体定位是指根据自然语言描述自动确定本地环境中目标物体位置的任务。这是家用机器人执行诸如"把儿童卫生间台面上的眼镜拿给我"等命令的核心能力。
在国际智能机器人与系统会议(IROS)上发表的研究中,提出了一种基于基础模型的新方法。该方法将远程物体定位视为信息检索问题,通过采用"技巧集合"使基础模型适应这一新应用,在一个基准数据集上实现了10%的性能提升,在另一个数据集上提升了5%。
技术挑战与解决方案
规模挑战:单个家庭可能包含10万个独立物体,使用大型基础模型同时查询所有候选对象耗时过长。解决方案包括:
- 分房间单独评分候选对象
- 在训练数据中加入负样本(目标物体不可见的视角)
- 限制搜索半径,基于训练学习的距离模式
维度不匹配:视觉语言模型通常使用二维图像训练,而机器人环境地图是三维的。通过将物体的二维边界框坐标转换为三维坐标(中心点三维坐标加半径),解决了这一不匹配问题。
性能优化:为每个视角生成上下文向量(该视角所有可见物体向量的平均值),加入候选物体表示中,使机器人能区分不同卫生间的洗手池上方镜子等相似物体。
实验验证
该方法在两个基准数据集上进行了测试,每个数据集包含数万条命令和对应的传感器读数,显著优于之前的最先进模型。在实际机器人部署测试中,该算法能够实时高精度执行命令。
当机器人对环境没有先验知识时,在推理阶段可使用基于边界的探索方法来映射候选物体的位置。
相关研究领域:机器人技术、搜索与信息检索、对话式AI、计算机视觉