生成式AI实现多模态信息检索新突破

本文介绍了一种名为GENIUS的创新生成式多模态检索框架,通过语义量化和查询增强技术,显著提升文本-图像跨模态检索效率,在M-BEIR基准测试中比现有生成式方法性能提升22%-36%,同时保持恒定检索时间。

多模态信息检索的范式转变

近十年来,机器学习严重依赖嵌入概念:模型将输入数据转换为向量(嵌入),使得向量空间中的几何关系具有语义含义。例如,在表示空间中嵌入位置相近的单词可能具有相似含义。这种嵌入概念催生了明显的信息检索范式:查询被嵌入表示空间,模型选择嵌入最接近的响应。这同样适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入同一空间。

然而,随着生成式AI主导机器学习研究,在2025年计算机视觉与模式识别会议(CVPR)上提出了一种面向生成式AI时代的新型信息检索方法。该模型名为GENIUS(生成式通用多模态搜索),是一种多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。

GENIUS的创新架构

与传统基于嵌入的检索需要将查询向量与每个可能响应向量进行比较不同,GENIUS将查询作为输入并生成单个ID代码作为输出。这种方法之前已有尝试,但GENIUS显著改进了先前基于生成的信息检索方法。

核心技术创新

语义量化: 在训练过程中,模型的目标输出ID通过残差量化生成。每个ID实际上是一个代码序列,第一个代码定义数据项的模态(图像、文本或图文对)。后续代码以更具体的程度定义数据项在表示空间中的区域:共享第一个代码的项位于同一通用区域;共享前两个代码的项在该区域中聚类更紧密,依此类推。

查询增强: 为了解决模型在新数据类型上泛化能力不足的问题,采用查询增强技术。通过在表示空间中对查询和目标ID进行插值来生成新查询,使模型学习到多种查询可以映射到同一目标,从而提升泛化能力。

性能表现

在M-BEIR基准测试中,GENIUS在COCO数据集的文本-图像检索任务中,Recall@5指标比最佳生成检索方法高出28.6分。结合基于嵌入的重新排序后,性能进一步提升31%-56%,显著缩小了基于生成的方法与基于嵌入的方法之间的差距。

框架实施流程

  1. 阶段0:分别预训练图像和文本编码器
  2. 阶段1:通过对比训练,残差量化模块学习将输入映射到代码序列
  3. 阶段2:训练解码器直接从输入编码生成输出ID
  4. 推理时:输出代码通过trie数据结构进行约束

技术优势

GENIUS在生成方法中实现了最先进的性能,并保持了生成检索的效率优势。随着数据集增长,其效率优势变得更加显著,无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。这代表了生成式多模态检索领域的重要进步。

相关会议:CVPR 2025 技术标签:生成式AI

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计