CONCAP：通过概念检索增强描述突破英语局限

多语言视觉语言模型在图像描述领域已取得显著进展，但仍落后于英语模型，原因在于多语言训练数据有限且大规模模型参数化成本高昂。检索增强生成（RAG）提供了一种有前景的替代方案，通过在目标语言中检索示例来条件化描述生成，减少了对大量多语言训练的需求。然而，多语言RAG描述模型通常依赖于从英语翻译而来的检索描述，这可能引入与源语言不匹配和语言偏见。

CONCAP是一种多语言图像描述模型，整合了检索描述与图像特定概念，增强了输入图像的上下文化，并在不同语言中夯实了描述过程。在XM3600数据集上的实验表明，CONCAP在低资源和中资源语言上实现了强劲性能，且数据需求大幅减少。研究结果突显了概念感知检索增强在弥合多语言性能差距方面的有效性。

本文发表于COLM 2025会议。