多语言图像描述技术突破:概念检索增强方法

本文介绍CONCAP模型,一种结合检索增强生成与图像特定概念的多语言图像描述方法,显著减少多语言数据需求并在低资源语言上表现优异,通过XM3600数据集验证其有效性。

CONCAP:通过概念检索增强描述突破英语局限

多语言视觉语言模型在图像描述领域已取得显著进展,但仍落后于英语模型,原因在于多语言训练数据有限且大规模模型参数化成本高昂。检索增强生成(RAG)提供了一种有前景的替代方案,通过在目标语言中检索示例来条件化描述生成,减少了对大量多语言训练的需求。然而,多语言RAG描述模型通常依赖于从英语翻译而来的检索描述,这可能引入与源语言不匹配和语言偏见。

CONCAP是一种多语言图像描述模型,整合了检索描述与图像特定概念,增强了输入图像的上下文化,并在不同语言中夯实了描述过程。在XM3600数据集上的实验表明,CONCAP在低资源和中资源语言上实现了强劲性能,且数据需求大幅减少。研究结果突显了概念感知检索增强在弥合多语言性能差距方面的有效性。

本文发表于COLM 2025会议。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计