在大型语言模型(LLMs)快速发展的领域中,准确评估检索增强生成(RAG)模型至关重要。本文介绍了一种开创性方法,通过结合自动化试题生成流程和项目反应理论(IRT),针对特定任务评估RAG模型的事实准确性。该方法不仅具备鲁棒性和可解释性,还能通过战略性地识别模型优势并优化试题来提升评估效率。
试题生成流程
RAG通过检索相关文档并利用其文本内容生成响应来处理自然语言查询。该方法期望可靠文档中的事实陈述能抑制LLM产生看似合理但错误句子的"幻觉"倾向。为评估RAG模型在特定任务中的表现,采用LLM从任务特定知识库生成多选题。该方法对RAG系统和试题生成任务中使用的检索器和生成模型均保持不可知性。
关键技术步骤
- 对知识库中的每个文档,使用LLM和多种提示工程策略生成候选问题
- 应用自然语言处理过滤器,沿长度、错误率和自包含性等维度剔除低质量问题
- 采用Jaccard相似系数和基于嵌入的相似性指标过滤退化问题
评估发现
- 不存在通用解决方案,检索方法和LLM的选择通常取决于具体任务
- 选择合适的检索方法比单纯使用更大LLM能带来更大性能提升
- 对于涉及闭源知识的任务,准确率瓶颈通常是LLM而非检索方法
- 未对齐的检索组件可能导致比完全不使用检索更差的准确率
IRT增强评估
通过项目反应理论(IRT)建立三参数模型(难度、区分度、猜测概率),持续优化试题质量。使用Fisher信息量量化试题信息量,在arXiv任务迭代改进中观察到Fisher信息量提升0.1。
多维评估体系
结合布鲁姆分类法和语义分析对问题进行分类,发现:
- 在StackExchange任务中"评估"和"理解"维度最具区分度
- “what"和"which"类问题在低能力水平最具区分度
- “when"类问题在高能力水平表现更好
该方法已成功应用于AWS运维故障排除、arXiv摘要生成、StackExchange问答和SEC文件解析等多个领域,未来将扩展至摘要生成、翻译和情感分析等场景。