多模态RAG幻觉抑制的多阶段验证框架

本文介绍了一种针对多模态检索增强生成系统的多阶段验证框架,通过轻量级查询路由、查询感知检索与摘要、双路径生成及事后验证等技术手段,有效降低视觉语言模型在应对第一人称图像、长尾实体和复杂多跳问题时的幻觉现象。

多阶段验证中心框架用于缓解多模态RAG中的幻觉

本文介绍了某团队为KDD Cup 2025元综合多模态多轮RAG基准挑战(CRAG-MM)开发的技术解决方案。该挑战旨在解决现代视觉语言模型(VLM)的一个关键局限性:在面对第一人称图像、长尾实体和复杂的多跳问题时容易产生幻觉。这一问题在现实应用中尤为突出,用户提出的事实查询要求跨多种模态的高事实准确性。

为解决这一问题,提出了一个鲁棒的多阶段框架,优先考虑事实准确性和真实性而非完整性。该解决方案集成了以下组件:

  • 轻量级查询路由器以提高效率
  • 查询感知的检索与摘要流程
  • 双路径生成机制
  • 事后验证模块

这种保守策略旨在最小化幻觉现象,这在竞赛评分指标中会受到严重惩罚。该方法在任务1中获得第三名,证明了在复杂多模态RAG系统中优先考虑答案可靠性的有效性。

实现代码可通过此https URL获取。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计