基于试题生成的RAG管道自动化评估技术

在大型语言模型（LLMs）快速发展的领域中，准确评估检索增强生成（RAG）模型至关重要。本文介绍了一种开创性方法，通过结合自动化试题生成流程和项目反应理论（IRT），针对特定任务评估RAG模型的事实准确性。该方法不仅具备鲁棒性和可解释性，还能通过战略性地识别模型优势并优化试题来提升评估效率。

试题生成流程
RAG通过检索相关文档并利用其文本内容生成响应来处理自然语言查询。该方法期望可靠文档中的事实陈述能抑制LLM产生看似合理但错误句子的"幻觉"倾向。为评估RAG模型在特定任务中的表现，采用LLM从任务特定知识库生成多选题。该方法对RAG系统和试题生成任务中使用的检索器和生成模型均保持不可知性。

关键技术步骤

对知识库中的每个文档，使用LLM和多种提示工程策略生成候选问题
应用自然语言处理过滤器，沿长度、错误率和自包含性等维度剔除低质量问题
采用Jaccard相似系数和基于嵌入的相似性指标过滤退化问题

评估发现

不存在通用解决方案，检索方法和LLM的选择通常取决于具体任务
选择合适的检索方法比单纯使用更大LLM能带来更大性能提升
对于涉及闭源知识的任务，准确率瓶颈通常是LLM而非检索方法
未对齐的检索组件可能导致比完全不使用检索更差的准确率

IRT增强评估
通过项目反应理论（IRT）建立三参数模型（难度、区分度、猜测概率），持续优化试题质量。使用Fisher信息量量化试题信息量，在arXiv任务迭代改进中观察到Fisher信息量提升0.1。

多维评估体系
结合布鲁姆分类法和语义分析对问题进行分类，发现：

在StackExchange任务中"评估"和"理解"维度最具区分度
“what"和"which"类问题在低能力水平最具区分度
“when"类问题在高能力水平表现更好

该方法已成功应用于AWS运维故障排除、arXiv摘要生成、StackExchange问答和SEC文件解析等多个领域，未来将扩展至摘要生成、翻译和情感分析等场景。