大语言模型幻觉检测新工具与数据集解析

本文介绍某中心研发的RefChecker工具,通过知识三元组结构精细检测大语言模型生成内容中的事实性错误。该框架支持零上下文、噪声上下文和准确上下文三种场景评估,提供开源工具包和基准数据集,助力提升模型事实准确性。

新工具与数据集助力大语言模型幻觉检测

基于知识三元组而非自然语言的事实表示方式,可实现更细粒度的判断。

幻觉检测挑战

尽管大语言模型能力卓越,但其存在显著弱点:容易产生幻觉,即生成听起来合理但事实错误的断言。有时这些幻觉非常细微,例如模型可能生成基本准确但将日期错判一两年的内容。

RefChecker框架创新

为检测此类细微幻觉,某中心发布RefChecker——包含新的幻觉检测框架和用于多场景评估的基准数据集。与以往使用句子或短语表征模型生成文本中事实断言的方法不同,RefChecker采用知识图谱中使用的<主体,谓词,客体>结构的知识三元组,能对模型输出进行更精细、更精准的评估。

基准数据集涵盖三种场景:

  • 零上下文:模型无参考文本直接回答问题(100个示例)
  • 噪声上下文:模型获取可能包含错误信息的检索文档(检索增强生成场景)
  • 准确上下文:模型获取单一准确文档进行生成

核心技术机制

1. 评估粒度创新

通过将模型响应分解为知识三元组,可检测单个知识点的真实性。例如句子"Richard Mulligan在《Partridge Family》中饰演Kincaid先生"可拆解为:

  • 〈Richard Mulligan, 饰演角色, Kincaid先生〉
  • 〈Kincaid先生, 出现作品, The Partridge Family〉

2. 声明分类体系

采用三分类法精确建模响应与参考内容的关系:

  • 蕴含(绿色对勾):参考材料支持的声明
  • 矛盾(红色叉号):参考材料反驳的声明
  • 中立(橙色问号):需要额外证据验证的声明

技术实现流程

RefChecker包含两个可配置模块:

  • 声明三元组提取器:当前版本使用GPT-4和Claude 2,后续将提供Mixtral-8x7B开源提取器
  • 幻觉检查器:支持GPT-4、Claude 2和RoBERTa-NLI,后续将增加AlignScore等开源方案

实验表明,多个自动检查器的多数投票结果与人工标注一致性最高。

快速开始指南

工具已在GitHub开源,支持pip安装。详细使用指南包含:

  • 知识三元组提取方法
  • 三元组层级幻觉检测流程
  • 自定义模型评估方案

精准检测细粒度幻觉是制定有效缓解策略的第一步。欢迎通过GitHub提交反馈和改进建议。

致谢:Lin Qiu, Zheng Zhang

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计