计算机视觉研究趋势
生成式模型与基础模型(如视觉语言模型)已成为当前AI研究热点,这一趋势在CVPR 2024收录论文中尤为明显。约三分之一论文聚焦视觉语言模型,其余涉及视觉问答、幻觉抑制、检索增强生成等关联领域,同时传统计算机视觉课题如三维重建、目标跟踪等仍保持重要地位。
关键技术突破
三维重建
- 《ViewFusion:通过插值去噪实现多视角一致性》提出自回归流程解决扩散模型视角对齐问题
- 《360°房间布局的双布局估计》消除全景空间重建歧义
幻觉抑制
- 《多模态视觉信息 grounding 控制》通过视觉信息锚定减少生成幻觉
- 《THRONE:大型视觉语言模型自由生成幻觉基准》建立首个对象级评估体系
视觉语言模型
- 《在双曲空间中探索模态间隙》提出新型对比损失函数
- 《GROUNDHOG:基于整体分割的大模型 grounding 技术》实现语言模型与图像分割的协同
- 《扩散模型文本-图像生成的扩展性研究》揭示UNet架构缩放对生成质量的影响规律
其他创新方向
- 《FairRAG:公平检索增强的人类生成》解决生成式AI的公平性问题
- 《CPR:版权保护的检索增强生成》构建内容版权防护框架
- 《GRAM:多页视觉问答的全局推理》突破跨页推理技术瓶颈
典型应用案例
- 通过《MRC-Net:多尺度残差相关的6自由度姿态估计》实现工业级物体位姿检测
- 《自监督多目标跟踪》创新性利用路径一致性提升跟踪鲁棒性
- 《合成分步推理:基于LLM的图表问答数据生成》构建自动化数据增强管道