使用生成式AI进行多模态信息检索
在过去的十年中,机器学习(ML)严重依赖于嵌入的概念:ML模型学习将输入数据转换为向量(嵌入),使得向量空间内的几何关系具有语义含义。例如,在表示空间中嵌入接近的单词可能具有相似的含义。
嵌入概念暗示了一个明显的信息检索范式:查询将被嵌入到表示空间中,模型将选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间中。
然而,最近生成式AI开始主导ML研究,在2025年计算机视觉与模式识别会议(CVPR)上,我们提出了一篇论文,更新了基于ML的信息检索方法以适应生成式AI时代。我们的模型名为GENIUS(生成通用多模态搜索),是一种多模态模型,其输入和输出可以是图像、文本或图像-文本对的任意组合。
范式转变
与将查询向量与每个可能的响应向量进行比较(如果图像目录或文本语料库足够大,这是一项耗时的任务)不同,我们的模型将查询作为输入并生成单个ID代码作为输出。这种方法以前尝试过,但GENIUS显著改进了以前的基于生成的信息检索方法。
在使用三个不同指标(检索一个、五个或十个候选响应时的检索准确率)对两个不同数据集的测试中,GENIUS比先前性能最佳的生成检索模型提高了22%至36%。当我们随后使用传统的基于嵌入的方法对顶部生成的响应候选进行重新排名时,性能进一步提高了31%至56%,显著缩小了基于生成的方法与基于嵌入的方法之间的差距。
GENIUS框架
与局限于单模态任务或特定基准的先前的方法不同,GENIUS泛化于文本、图像和图像-文本对的检索,保持高速度和竞争性准确率。其相对于先前基于生成的模型的优势基于两个关键创新:
语义量化:在训练期间,模型的目标输出ID通过残差量化生成。每个ID实际上是一个代码序列,第一个代码定义数据项的模态——图像、文本或图像-文本对。连续的代码更具体地定义数据项的表示空间区域:共享第一个代码的项在同一一般区域;共享前两个代码的项在该区域中更紧密地聚集;共享前三个代码的项更紧密地聚集,依此类推。模型尝试学习从输入编码中重现代码序列。
查询增强:这种方法产生的模型可以为熟悉类型的对象和文本生成准确的ID代码,但可能难以泛化到新数据类型。为了解决这个限制,我们使用查询增强。对于查询-ID对的代表性采样,我们通过在表示空间中的初始查询和目标ID之间插值来生成新查询。这样,模型学习到各种查询可以映射到同一目标,这有助于其泛化。
实验结果
在使用M-BEIR基准的实验中,GENIUS在COCO数据集的文本到图像检索中,Recall@5比最佳生成检索方法高出28.6分。通过基于嵌入的重新排名,GENIUS在M-BEIR基准上通常实现接近基于嵌入基线的结果,同时保留生成检索的效率优势。
GENIUS在生成方法中实现了最先进的性能,并缩小了生成方法与基于嵌入方法之间的性能差距。随着数据集的增长,其效率优势变得更加显著,保持高检索速度,而没有基于嵌入方法典型的昂贵索引构建。因此,它代表了生成多模态检索的重大进步。
GENIUS框架。阶段0:预训练独立的图像和文本编码器。阶段1:通过对比训练,残差量化模块学习将输入映射到代码序列,其中每个代码细化前一个代码的粗粒度规范。阶段2:使用残差量化模型的输出作为目标,训练解码器直接从输入编码生成输出ID。在推理时,输出代码受称为trie的数据结构约束,这是一种遍历编码符号序列的树。