新工具与数据集助力大语言模型幻觉检测

基于知识三元组而非自然语言的事实表示方式，可实现更细粒度的判断。

幻觉检测挑战

尽管大语言模型能力卓越，但其存在显著弱点：容易产生幻觉，即生成听起来合理但事实错误的断言。有时这些幻觉非常细微，例如模型可能生成基本准确但将日期错判一两年的内容。

为检测此类细微幻觉，某中心发布RefChecker——包含新的幻觉检测框架和用于多场景评估的基准数据集。与以往使用句子或短语表征模型生成文本中事实断言的方法不同，RefChecker采用知识图谱中使用的<主体，谓词，客体>结构的知识三元组，能对模型输出进行更精细、更精准的评估。

基准数据集涵盖三种场景：

通过将模型响应分解为知识三元组，可检测单个知识点的真实性。例如句子"Richard Mulligan在《Partridge Family》中饰演Kincaid先生"可拆解为：

采用三分类法精确建模响应与参考内容的关系：

RefChecker包含两个可配置模块：

实验表明，多个自动检查器的多数投票结果与人工标注一致性最高。

工具已在GitHub开源，支持pip安装。详细使用指南包含：

精准检测细粒度幻觉是制定有效缓解策略的第一步。欢迎通过GitHub提交反馈和改进建议。

致谢：Lin Qiu, Zheng Zhang