图像转地图技术获ICRA最佳论文奖

本文介绍了一种将标准侧向摄影图像转换为鸟瞰地图的创新方法,利用序列到序列Transformer架构,通过像素列与射线间的对应关系实现图像到地图的转换,在三个不同数据集上平均性能提升15%,适用于自动驾驶车辆的环境映射。

图像转地图技术获ICRA最佳论文奖

在国际机器人与自动化会议(ICRA)上,一篇题为《将图像转换为地图》的论文荣获会议最佳论文奖。该论文解决了基于标准侧向摄影图像构建场景鸟瞰图的问题,这对自动驾驶车辆至关重要,需通过环境地图确定安全行驶区域。

技术核心:序列到序列转换

数字图像中每一列像素对应于视场二维地图中的单条射线,每个像素则对应射线上的一点。基于像素与射线上点的一一对应关系,将图像转换为地图的问题与自然语言处理中的序列到序列问题(如机器翻译)结构相同。研究利用成熟的序列到序列处理机制——特别是基于Transformer的模型——通过直接翻译每列像素为地图上的射线来实现转换。

在实验中,该方法在三个不同数据集上对比了多种现有方法,在所有数据集上均显著优于现有方法,平均性能提升15%。

注意力机制的关键作用

Transformer的成功关键在于其注意力机制,能确定输入中哪些元素对输出元素最重要。但在计算机视觉应用中,Transformer通常需要比自然语言处理更多的数据,因为二维图像中存在大量注意力候选对象。

通过将Transformer的使用限制于单个像素列和射线,避免了组合爆炸问题,能够在现有较小数据集上高效训练。

语义内容处理

在计算机视觉案例中,沿射线的单个像素包含信息较少。例如,街道场景中射线上的一个黑色像素可能对应沥青、轮胎或行人鞋子。为消除歧义,通过卷积神经网络(CNN)预处理输入图像生成捕捉局部上下文的特征。

CNN逐步处理图像像素块,寻找独特模式(如特定方向的颜色渐变)。CNN底层发现的低层模式由高层聚合,直到获得语义内容。输入Transformer网络的不是原始颜色值,而是CNN产生的像素嵌入,这些嵌入考虑了其他列像素的信息,并包含有助于确定射线深度的线索。

使用在标准图像分类任务上预训练的CNN,已学会识别对计算机视觉任务有用的图像特征。然后端到端训练整个集成模型(CNN和Transformer),使CNN产生对图像映射有用的嵌入。

实验与未来方向

实验中考虑了从单图像和图像序列(即视频)构建地图的场景。基于视频的地图比基准视频模型更准确,且通常比从静态图像产生的地图更准确,但改进幅度较小,在所有14个类别上平均提高约3%。

未来研究的一个有趣主题是如何更好地利用视频流中的透视信息,以相对于静态图像获得更大的地图精度改进。此外,还通过使用新颖的基于图的方法将3-D对象检测集成到映射算法中改进了这项工作。

研究领域:计算机视觉、机器人技术
标签:单目深度估计、自主机器人技术

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计