图像与文本的更好联合表示
在计算机视觉与模式识别会议(CVPR 2022)上,某中心搜索团队发表的两篇论文聚焦于图像-文本特征对齐技术,即训练神经网络生成图像及其相关文本的联合表示。这类表示对多种计算机视觉任务至关重要,包括基于文本的图像搜索和基于图像的文本检索。
传统方法局限
传统的联合图像-文本模型通常采用对比学习进行训练:模型接收成对的训练样本(一个正样本和一个负样本),学习在表示空间中将正样本拉近,并将正负样本推远。例如,模型通过图像与正确标签及随机标签的配对训练,在共享的多模态表示空间中学会将图像与正确标签关联。
然而,单纯通过强对比学习强制不同模态间的对齐可能导致学习特征退化。两篇论文基于同一观察提出解决方案:通过对表示空间施加额外结构,使模型学习更鲁棒的图像-文本对齐。
表示码书方法
在《使用表示码书的多模态对齐》论文中,提出在更高更稳定的层次上使用聚类表示对齐图像和文本。具体方法是将图像和文本视为同一实体的两种“视图”,并使用聚类中心码书跨越联合视觉-语言编码空间。每个中心锚定一组相关概念,无论这些概念以视觉还是文本形式表达。
训练过程中,通过聚类分配对比正负样本,同时优化聚类中心。为进一步平滑学习过程,采用师生蒸馏范式,使用教师模型输出指导学生学习另一种视图(图像或文本)。该方法在常见视觉-语言基准测试中实现了零样本跨模态检索的新最先进性能,并在其他迁移任务中表现优异。
三重对比学习
《通过三重对比学习的视觉-语言预训练》论文指出,单纯执行跨模态对齐(CMA)会忽略各模态内有用的相关性。例如,CMA虽将图像-文本对映射到嵌入空间中的相近位置,但无法保证同一模态的相似输入保持接近。当预训练数据存在噪声时,该问题更为严重。
三重对比学习(TCL)方法同时利用跨模态和模态内自监督学习。除CMA外,TCL引入模态内对比目标以提供表示学习的互补优势。该方法还最大化图像/文本局部区域与其全局摘要间的平均互信息,首次在多模态表示学习中考虑局部结构信息。实验表明,该方法在图像-文本检索和视觉问答等下游任务中达到新的最先进水平。
技术影响
这两种方法通过结构化表示空间和融合多层级对比机制,显著提升了多模态表示学习的效果。表示码书方法通过聚类中心稳定对齐过程,而三重对比学习通过引入模态内约束增强表示一致性。这些创新为跨模态理解任务提供了新的技术路径,特别是在处理未见数据类型的零样本检索场景中展现突出优势。