图像与文本联合表示方法新突破

本文介绍了两种在CVPR会议上提出的图像文本联合表示学习方法,通过引入表征空间附加结构来提升模型性能。方法一使用表征码本进行多模态对齐,方法二采用三重对比学习结合跨模态和模态内监督,在零样本跨模态检索等任务中取得了领先成果。

更好的图像与文本联合表示方法

在计算机视觉与模式识别会议(CVPR)上,某中心搜索团队发表了两篇聚焦图像文本特征对齐的论文,即训练神经网络生成图像及其相关文本的联合表示。这种表示在多种计算机视觉任务中非常有用,包括基于文本的图像搜索和基于图像的文本搜索。

传统方法与新观察

通常,联合图像文本模型使用对比学习进行训练:模型接收成对的训练样本(一个正例和一个负例),学习在表示空间中将正例拉近,并将正例与负例推远。例如,模型可能在带有相关文本标签对的图像上训练,一个正确标签和一个随机标签,从而学习在共享的多模态表示空间中将图像与正确标签关联。

两篇CVPR论文基于同一观察:仅通过强对比学习强制不同模态之间的对齐可能导致学习特征退化。为解决此问题,论文探索了在表示空间施加附加结构的不同方法,使模型学习更稳健的图像文本对齐。

表征码本方法

在多模态数据上训练的神经网络自然倾向于在表示空间中将同类数据聚类,这种趋势与图像文本表示学习的目的相悖,后者寻求将图像与其相关文本聚类。

在《使用表征码本的多模态对齐》中,提出在更高更稳定的层次上使用聚类表示来对齐图像和文本。具体而言,将图像和文本视为同一实体的两种“视图”,并使用聚类中心码本来跨越联合视觉语言编码空间。即每个中心锚定一组相关概念,无论这些概念是以视觉还是文本方式表达。

在训练期间,通过聚类分配对比正负样本,同时优化聚类中心。为进一步平滑学习过程,采用师生蒸馏范式,其中教师模型的输出为学生模型提供训练目标。具体而言,使用一个视图(图像或文本)的模型输出来指导另一个视图的学生学习。该方法在常见视觉语言基准上进行了评估,并在零样本跨模态检索(即训练期间未见数据类型的基于图像的文本检索和基于文本的图像检索)上取得了新的领先成果。该模型在各种其他迁移任务上也具有竞争力。

三重对比学习方法

对比学习在训练图像文本对齐模型中的成功归因于其最大化图像文本对之间互信息的能力,即从文本特征预测图像特征的程度,反之亦然。

然而,仅执行跨模态对齐(CMA)忽略了每个模态内潜在有用的相关性。例如,尽管CMA将图像文本对映射到嵌入空间中彼此接近,但未能确保同一模态的相似输入保持接近。当预训练数据有噪声时,此问题可能更严重。

在《使用三重对比学习的视觉语言预训练》中,使用三重对比学习(TCL)进行视觉语言预训练来解决此问题。该方法利用跨模态和模态内自监督,即在无需标注训练样本的任务上进行训练。除了CMA,TCL引入了模态内对比目标,在表示学习中提供互补益处。

为利用图像和文本输入的局部和结构信息,TCL进一步最大化图像/文本局部区域与其全局摘要之间的平均互信息。据所知,这是首个在多模态表示学习中考虑局部结构信息的工作。实验评估表明,该方法具有竞争力,并在各种常见下游视觉语言任务(如图像文本检索和视觉问答)上取得了新的领先成果。

研究领域

计算机视觉

标签

数据表示、对比学习

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计