概率推理评估大语言模型事实准确性新方法

本文介绍FactReasoner,一种基于概率推理的长文本事实性评估方法。该方法将生成内容分解为原子单元,检索外部知识源上下文,通过概率编码构建联合分布,计算后验概率评估事实准确性,在基准测试中显著优于现有提示方法。

FactReasoner:基于概率推理的大语言模型长文本事实性评估方法

大型语言模型(LLMs)近年来在生成任务上展现出强大能力,但难以保证生成内容的 factual correctness(事实正确性)。这导致模型在需要事实准确响应的实际场景中不可靠。

本文提出FactReasoner,一种新的事实性评估器,利用概率推理来评估长文本生成响应的事实性。具体而言,FactReasoner将响应分解为 atomic units(原子单元),从外部知识源检索相关上下文,并使用文本陈述(对应原子单元和上下文)之间逻辑关系(entailment, contradiction)的概率编码构建联合概率分布。随后,FactReasoner计算响应中原子单元是否被检索上下文支持的 posterior probability(后验概率)。

在标注和未标注基准数据集上的实验表明,FactReasoner在事实精确度和召回率方面均显著优于当前最先进的基于提示的方法。

主题分类:
计算与语言(cs.CL);人工智能(cs.AI)

引用信息:
arXiv:2502.18573 [cs.CL]
https://doi.org/10.48550/arXiv.2502.18573

提交历史:

  • 版本1:2025年2月25日
  • 版本2:2025年7月26日(当前版本)
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计