背景介绍
深度信息对机器人定位、建图和障碍物检测至关重要。传统深度采集设备如激光雷达体积庞大且耗电,双目深度相机需定期校准且在低纹理场景精度不足。单目深度估计(MDE)直接从单张图像预测深度,具有低成本、小体积、高能效和免校准的优势。
核心挑战
不同相机的硬件和软件差异导致图像存在细微差别。基于单一相机图像训练的MDE模型可能过拟合该相机的视觉风格,出现域偏移问题,导致在其他相机图像上泛化性能下降。
解决方案
提出一种新型深度学习框架,通过无监督域适应将已标注源数据集的知识迁移到未标注目标数据集。关键创新点包括:
特征分解架构
- 共享内容编码器:提取跨域共享的语义特征(如桌椅等物体)
- 域特定风格编码器:分别处理源域和目标域的纹理、颜色等独有特征
- 深度估计解码器:结合目标域风格编码与内容编码生成深度图
三重损失函数
- 特征分解损失:通过图像重建和风格迁移任务指导编码器分离风格与内容特征
- 利用预训练图像网络的底层特征响应风格比对
- 高层特征响应内容比对
- 特征对齐损失:采用对抗训练使判别器无法区分源域/目标域的内容编码
- 配合分离批归一化技术独立学习各域统计量
- 深度估计损失:主优化目标
技术优势
- 推理结构紧凑:无需复杂图像翻译网络
- 端到端训练:单阶段训练优于多阶段预训练方法
- 计算效率:乘加运算量减少27%以上
实验验证
在三大场景取得突破:
- 跨相机适配:误差降低约20%
- 合成到真实适配:首次实现MDE任务的全场景覆盖
- 恶劣天气适配:雾天条件下对车辆、交通标志等物体的深度预测显著优于传统方法
应用前景
该方法为域自适应单目深度估计开辟了新方向,未来可应用于智能设备的环境感知系统。