多阶段验证中心框架用于缓解多模态RAG中的幻觉

本文介绍了某团队为KDD Cup 2025元综合多模态多轮RAG基准挑战（CRAG-MM）开发的技术解决方案。该挑战旨在解决现代视觉语言模型（VLM）的一个关键局限性：在面对第一人称图像、长尾实体和复杂的多跳问题时容易产生幻觉。这一问题在现实应用中尤为突出，用户提出的事实查询要求跨多种模态的高事实准确性。

为解决这一问题，提出了一个鲁棒的多阶段框架，优先考虑事实准确性和真实性而非完整性。该解决方案集成了以下组件：