家用机器人远程物体定位技术突破

技术背景

远程物体定位是指根据自然语言描述自动确定本地环境中目标物体位置的任务。这是家用机器人执行诸如"把儿童卫生间台面上的眼镜拿给我"等指令的核心能力。

提出了一种基于视觉语言（VL）基础模型的新方法，将远程物体定位视为信息检索问题。该方法通过"技巧集合"使基础模型适应这一新应用，在一个基准数据集上实现了10%的性能提升，在另一个数据集上提升5%。

通过添加负样本（目标物体不可见的视角）来增强训练数据，防止模型对候选对象评分过度自信，确保不同列表间评分的一致性。

在训练过程中，模型不仅学习物体与请求的最佳对应关系，还学习通常需要移动的距离范围。限制搜索半径在保证精度的同时大幅提升处理效率。

将物体周围边界框的2D坐标转换为3D坐标集：边界框中心的三个空间维度加上半径（定义为边界框对角线长度的一半）。

为每个视角生成上下文向量（该视角可见所有对象向量的平均值），添加到特定候选对象的表示中，使机器人能够区分不同环境中相似物体的位置。

在两个基准数据集上测试了该方法，每个数据集包含数万条指令和相应的传感器读数集合。结果表明该方法显著优于之前的最先进模型。在实际机器人上的部署测试显示，该算法能够实时高精度执行指令。

当机器人对环境没有先验知识时，在推理时可以使用基于边界的探索方法来映射候选对象的位置，实现远程物体定位。

研究领域：机器人技术、搜索与信息检索、对话式AI、计算机视觉

技术标签：人机交互、自主机器人技术