多图像输入视觉语言模型的技术突破
在计算机视觉与自然语言处理的交叉领域,视觉语言模型(VLMs)通过将图像和文本映射到共同表示空间,已在多模态AI任务中展现出卓越性能。然而传统模型通常基于文本-图像对进行训练,每个文本输入仅关联单张图像,这限制了模型在多图像场景中的应用。
技术架构创新
研究团队提出多重实例视觉组件(MIVC),该组件接收视觉编码器的输出,为多个输入图像创建统一表示。相比传统的图像拼接方法,MIVC能系统性地利用多图像的互补信息生成更丰富的嵌入表示。
多图像融合方法比较
研究团队测试了四种融合方法:
- 元素级平均嵌入
- 最大池化(记录所有图像中每个特征的最高值)
- 带门控机制的注意力网络
- 无门控的注意力机制
实验结果
在商品分类、商品属性推断和图像描述三大任务中,使用无门控注意力机制的模型表现最优:
- 图像描述任务:比基线模型提升6.4%
- 商品属性推断任务:精确度提升6.9%,召回率提升7.9%
模型工作原理
典型视觉语言模型包含:
- 图像编码器:生成输入图像的嵌入
- 投影层:将图像嵌入投影到训练好的大语言模型(LLM)表示空间 部分架构在图像编码器和投影层之间加入查询嵌入生成器,通过联合训练图像嵌入和对应标题学习语言表示
排列不变性注意力机制
为确保多图像表示不受输入顺序影响,设计了特殊的注意力机制:每个图像的注意力值(a1–an)不仅取决于自身嵌入,还考虑其他输入图像的嵌入。门控注意力机制通过sigmoid函数增强高注意力值、抑制低值,但实验显示其性能不如基础注意力机制。
未来方向
当前注意力机制仅适用于视觉编码流程,且假设所有图像独立同分布。后续研究将探索跨模态注意力机制和图像间相关性融合是否能带来进一步改进。