RAG在现实场景中的（低）效能：基于混合知识检索增强的大语言模型研究

检索增强生成（RAG）通过在执行时集成外部知识来增强大语言模型（LLM）。虽然RAG在基于维基百科等通用领域语料库的基准测试中表现出色，但其在现实多样化检索场景中的有效性仍未得到充分探索。

研究使用MassiveDS（一个包含混合知识的大规模数据存储）评估RAG系统，发现了关键局限性：检索主要使较小模型受益，重排序器添加的价值极小，且没有单一检索源能持续表现出色。此外，当前的大语言模型难以在异构知识源之间路由查询。这些发现凸显了在现实世界部署RAG之前需要自适应检索策略。

代码和数据可通过此https URL获取。