自动评估RAG管道的考试生成技术

本文介绍了一种利用考试生成和项目反应理论自动评估检索增强生成模型的新方法,通过多领域测试验证其有效性,能够准确识别模型优势并优化评估流程,显著提升RAG系统的事实准确性评估效率。

在快速演进的大语言模型领域,准确评估检索增强生成模型至关重要。本文介绍了一种开创性方法,该方法采用自动化考试生成流程,并辅以项目反应理论,来评估RAG模型在特定任务上的事实准确性。我们的方法不仅稳健、可解释且成本效益高,还能战略性地识别模型优势并优化考试以最大化其评估效用。

考试生成流程

RAG是一种处理自然语言查询的方法,通过检索相关文档并使用其中的文本来引导大语言模型生成响应。期望是来自可靠文档的事实断言能够抑制大语言模型的"幻觉"倾向,即生成听起来合理但错误的句子。

为了评估特定任务上的RAG模型,我们使用大语言模型从特定任务的知识库中生成多项选择题。我们的方法对RAG系统和考试生成任务中使用的检索器和生成模型都是不可知的。

我们的方法分为两个步骤。对于知识库中的每个文档,我们使用大语言模型和多种提示工程策略来创建候选问题。然后,我们使用多种自然语言处理过滤器,根据长度、不正确性和自包含性等多个维度去除低质量问题。

我们注意到一个有趣的不对称性:给定一个文档库,大语言模型生成问题和正确答案相对容易,因为两者的内容都包含在提示中。然而,创建高质量的错误答案则要困难得多,这些错误答案通常被称为判别器。

为了过滤掉退化问题,我们使用了Jaccard相似系数和基于嵌入的相似性度量。

以下是我们用于考试生成的提示:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
Human: Here is some documentation from {task_domain}: {documentation}.\n
From this generate a difficult multi-form question for an exam.
It should have 4 candidates, 1 correct answer, and explanations.

Syntax should be Question: {question}\n
A){candidate A}\n
B){candidate B}\n
C){candidate C}\n
D){candidate D}

Correct Answer: {correct answer}\n
### Assistant:

在我们的研究中,我们分析了几个RAG管道变体,包括闭卷、预言机和经典检索模型。我们的评估还扩展到不同规模的语言模型,从70亿参数到700亿参数,以了解模型规模对性能的影响。

为了展示该方法的实际效用,我们将其部署到广泛的领域中。这些领域包括某机构云服务运维、科学文献摘要、技术问答和财务报告。这种多领域方法不仅增强了我们评估的稳健性,还确保了我们的模型在各种实际应用中都是多功能且可靠的。

评估考试生成模型

我们的实验得出了四个关键发现。首先,没有一刀切的解决方案;检索方法的最佳选择通常是任务依赖的。其次,选择合适的检索方法比单纯使用更大的大语言模型能带来更大的性能提升。第三,对于涉及闭源知识的任务,准确性的瓶颈通常是大语言模型而非检索方法。最后,一个未对齐的检索器组件可能导致比完全没有检索更差的准确性。

通过项目反应理论增强考试

将项目反应理论整合到我们的流程中显著提高了考试的质量。IRT基于问题的特征和模型的能力来模拟正确响应的可能性。它使用三个因素——难度、区分度和猜测机会——来创建更准确地反映和预测模型表现的考试。

我们的流程从初始考试评估开始,识别并移除对区分性洞察贡献最小的问题。然后基于更新的IRT参数迭代优化考试,这有助于准确衡量细微的模型行为。

通过持续分析和调整基于IRT参数的考试,我们看到考试区分模型的能力有了显著改善。例如,我们使用Fisher信息来量化考试问题的信息量。

评估生成的考试

为了进一步加强对RAG模型的评估,我们使用语义分析和布鲁姆修订分类法对考试问题进行分类。布鲁姆分类法通过认知复杂性对问题进行分类——从基本回忆到分析任务——从而实现对模型能力的结构化评估。

这些额外的分类使我们能够评估模型在不同能力水平上的表现情况。

为了将我们的方法扩展到问答应用之外,我们未来的研究将专注于摘要、翻译和情感分析等领域。我们还在解决元评估的复杂任务,比较和完善我们的评估方法,以考虑大语言模型性能的多维性。此外,我们将持续更新我们的方法以适应大语言模型技术的快速发展,确保对新兴模型进行稳健而全面的评估。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计