自动化评估RAG管道的考试生成技术
在快速演进的大语言模型(LLM)领域,准确评估检索增强生成(RAG)模型至关重要。本文介绍了一种开创性方法,采用自动化考试生成流程,并通过项目反应理论(IRT)增强,以评估RAG模型在特定任务上的事实准确性。该方法不仅稳健、可解释且成本效益高,还能战略性地识别模型优势并优化考试以提升评估效用。
考试生成流程
RAG是一种处理自然语言查询的方法,通过检索相关文档并使用其中的文本来引导LLM生成响应。期望来自可靠文档的事实断言能够抑制LLM的"幻觉"倾向,即生成听起来合理但错误的句子。
为了评估特定任务上的RAG模型,我们使用LLM从任务特定知识库中生成多项选择题。我们的方法对RAG系统和考试生成任务中使用的检索器和生成模型均不可知。
我们的方法分为两个步骤:首先,对知识库中的每个文档,使用LLM和多种提示工程策略创建候选问题;然后,使用多种自然语言处理过滤器沿多个维度(如长度、不正确性和自包含性)移除低质量问题。
我们注意到一个有趣的不对称性:给定文档库,LLM生成问题和正确答案相对容易,因为两者的内容都包含在提示中。然而,创建高质量的错误答案(通常称为鉴别器)则困难得多。
为了过滤退化问题,我们使用Jaccard相似系数和基于嵌入的相似性度量。
以下是我们用于考试生成的提示:
|
|
实验评估
在我们的研究中,我们分析了多种RAG管道变体,包括闭卷(不向LLM提供文档库知识)、先知(考试者可以访问用于生成问答对的特定文档,以及问题本身和所有候选答案)和经典检索模型,如MultiQA嵌入、Siamese网络嵌入和BM25。我们的评估还扩展到不同规模的LLM,从70亿参数到700亿参数,以了解模型规模对性能的影响。
为了展示该方法的实际效用,我们将其部署到多个领域,包括某机构云服务的DevOps(测试模型的操作有效性)、arXiv摘要(挑战模型解析和生成密集科学文本见解的能力)、StackExchange问题(探测模型的响应性和准确性)以及SEC文件(测试模型从结构化公司文档中提取细微信息的能力)。
关键发现
我们的实验得出四个关键发现:
- 没有一刀切的解决方案;检索方法的最佳选择(在较小程度上包括LLM)通常取决于任务
- 选择合适的检索方法比单纯使用更大的LLM能带来更大的性能提升
- 对于涉及闭源知识的任务,准确性的瓶颈通常是LLM而非检索方法
- 未对齐的检索器组件可能导致比完全没有检索更差的准确性
通过项目反应理论增强考试
将项目反应理论(IRT)集成到我们的流程中显著提高了考试质量。IRT基于问题特征和模型能力建模正确响应的可能性,使用难度、区分度和猜测机会三个因素创建能更准确反映和预测模型性能的考试。
IRT假定模型正确回答问题的概率与称为能力的潜在变量相关,并提供估计该变量值的方法。因此,它提供了一种量化模型能力水平的方式。
我们的流程从初始考试评估开始,识别并移除对区分性洞察贡献最小的问题。然后根据更新的IRT参数迭代优化考试,帮助准确评估细微的模型行为。
通过基于IRT参数持续分析和调整考试,我们看到考试区分模型的能力有了显著改进。例如,我们使用Fisher信息量化考试问题的信息量。Fisher信息衡量可观测随机变量提供的关于未知参数的信息量,提供了一种在参数估计理论中衡量统计估计器精度的方法。
在arXiv任务的迭代改进过程中,Fisher信息函数持续显示进展,标志着考试区分模型能力的显著增强。这个迭代过程确保每个新版本的考试都比上一个更具信息量,并能有效评估RAG模型的能力。
评估生成的考试
为了进一步增强RAG模型的评估,我们使用语义分析和Bloom修订分类法对考试问题进行分类。Bloom分类法帮助按认知复杂性(从基本回忆到分析任务)分类问题,实现对模型能力的结构化评估。
Bloom分类法中的不同级别区分了知识维度(事实性、概念性、程序性和元认知)和认知过程维度(记忆、理解、应用、分析、评估和创造)。此外,我们通过识别"什么"和"哪个"等关键词对问题进行语义分类。这些额外分类使我们能够评估模型在不同能力水平上的表现。
未来工作
为了将我们的方法扩展到问答应用之外,未来的研究将专注于摘要、翻译和情感分析等领域。我们还在处理元评估的复杂任务,比较和改进我们的评估方法以考虑LLM性能的多维性。此外,我们将持续更新方法以适应LLM技术的快速发展,确保对新兴模型进行稳健全面的评估。