多阶段验证中心框架用于缓解多模态RAG中的幻觉
本文介绍了某团队为KDD Cup 2025元综合多模态多轮RAG基准挑战(CRAG-MM)开发的技术解决方案。该挑战旨在解决现代视觉语言模型(VLM)的一个关键局限性:在面对第一人称图像、长尾实体和复杂的多跳问题时容易产生幻觉。这一问题在现实应用中尤为突出,用户提出的事实查询要求跨多种模态的高事实准确性。
为解决这一问题,提出了一个鲁棒的多阶段框架,优先考虑事实准确性和真实性而非完整性。该解决方案集成了以下组件:
- 轻量级查询路由器以提高效率
- 查询感知的检索与摘要流程
- 双路径生成机制
- 事后验证模块
这种保守策略旨在最小化幻觉现象,这在竞赛评分指标中会受到严重惩罚。该方法在任务1中获得第三名,证明了在复杂多模态RAG系统中优先考虑答案可靠性的有效性。
实现代码可通过此https URL获取。