运动恢复结构技术
在某中心视频服务的最新研究中,提出了一种改进的稀疏运动恢复结构方法,用于从视频中推断摄像机运动和场景三维几何。该技术对影视内容中数字对象的精准嵌入具有重要意义。
技术原理
- 通过现成深度估计器增强传统几何优化方法
- 在六个不同性能指标上相对现有最佳技术提升10%-30%
- 同时最小化二维重投影误差和深度估计误差
实施流程
- 使用标准方法检测图像关键点
- 通过双线性插值从密集深度图获取关键点深度真值
- 在优化过程和初始化阶段均利用深度信息
- 联合优化二维重投影和深度测量误差
跨模态表示学习
方法创新
提出渐进式自蒸馏的跨模态表示学习方法,相比CLIP方法具有以下优势:
- 采用软对齐机制替代硬对齐
- 允许给定图像与其他图像关联文本建立部分对应关系
- 通过自蒸馏技术逐步创建训练目标
性能表现
- 在两个图像分类设置中全面超越CLIP
- 在某些数据集上性能提升达30%-90%
- 在图像文本检索任务中持续优于CLIP基准
自蒸馏过程
- 初始阶段使用与CLIP相同的对比损失函数
- 训练过程中使用模型自身预测作为额外训练目标
- 逐步增加自预测在损失函数中的权重
- 强化图像与文本间可靠关联的学习
技术价值
这些通用表示模型可应用于多种计算机视觉问题,其精度提升将为视频服务客户在未来几年内带来持续的技术红利。