新工具与数据集助力大语言模型幻觉检测
基于知识三元组而非自然语言的事实表示方式,可实现更细粒度的判断。
幻觉检测挑战
尽管大语言模型能力卓越,但其存在显著弱点:容易产生幻觉,即生成听起来合理但事实错误的断言。有时这些幻觉非常细微,例如模型可能生成基本准确但将日期错判一两年的内容。
RefChecker框架创新
为检测此类细微幻觉,某中心发布RefChecker——包含新的幻觉检测框架和用于多场景评估的基准数据集。与以往使用句子或短语表征模型生成文本中事实断言的方法不同,RefChecker采用知识图谱中使用的<主体,谓词,客体>结构的知识三元组,能对模型输出进行更精细、更精准的评估。
基准数据集涵盖三种场景:
- 零上下文:模型无参考文本直接回答问题(100个示例)
- 噪声上下文:模型获取可能包含错误信息的检索文档(检索增强生成场景)
- 准确上下文:模型获取单一准确文档进行生成
核心技术机制
1. 评估粒度创新
通过将模型响应分解为知识三元组,可检测单个知识点的真实性。例如句子"Richard Mulligan在《Partridge Family》中饰演Kincaid先生"可拆解为:
- 〈Richard Mulligan, 饰演角色, Kincaid先生〉
- 〈Kincaid先生, 出现作品, The Partridge Family〉
2. 声明分类体系
采用三分类法精确建模响应与参考内容的关系:
- 蕴含(绿色对勾):参考材料支持的声明
- 矛盾(红色叉号):参考材料反驳的声明
- 中立(橙色问号):需要额外证据验证的声明
技术实现流程
RefChecker包含两个可配置模块:
- 声明三元组提取器:当前版本使用GPT-4和Claude 2,后续将提供Mixtral-8x7B开源提取器
- 幻觉检查器:支持GPT-4、Claude 2和RoBERTa-NLI,后续将增加AlignScore等开源方案
实验表明,多个自动检查器的多数投票结果与人工标注一致性最高。
快速开始指南
工具已在GitHub开源,支持pip安装。详细使用指南包含:
- 知识三元组提取方法
- 三元组层级幻觉检测流程
- 自定义模型评估方案
精准检测细粒度幻觉是制定有效缓解策略的第一步。欢迎通过GitHub提交反馈和改进建议。
致谢:Lin Qiu, Zheng Zhang