自动化幻觉检测的三重技术组合
当大语言模型(LLM)被询问"圣约翰草可能与哪些药物相互作用"时,它并不会检索经过医学验证的药物相互作用列表(除非经过专门训练),而是根据与圣约翰草相关的词汇分布生成列表。这可能导致真实药物与虚构药物的混合,伴随不同程度的交互风险。这类LLM幻觉——听起来合理但可验证为错误的断言或声明——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域有减少幻觉的方法,但识别和测量幻觉的需求仍是生成式AI安全使用的关键。
在EMNLP会议上发表的论文中,我们提出了HalluMeasure方法,该技术通过三种创新技术的组合实现幻觉测量:
- 声明级评估
- 思维链推理
- 幻觉错误类型的语言学分类
HalluMeasure技术架构
声明分解与分类
HalluMeasure首先使用声明提取模型将LLM响应分解为一组声明。通过单独的声明分类模型,将声明与上下文(与请求相关的检索文本)进行比较,将其分为五个关键类别:
- 支持
- 缺失
- 矛盾
- 部分支持
- 不可评估
精细错误类型分析
此外,HalluMeasure将声明分类为10种不同的语言错误类型(如实体错误、时间错误和过度泛化),提供幻觉错误的细粒度分析。最终通过测量不支持声明的比例计算聚合幻觉分数,并统计细粒度错误类型的分布,为LLM开发者提供有价值的错误洞察。
思维链推理提升分类精度
与传统直接提示LLM分类声明的方法不同,我们采用思维链推理技术,要求LLM不仅执行任务,还要证明每个操作的合理性。我们开发了五步CoT提示,结合精选的声明分类示例,指导分类模型彻底检查每个声明与参考上下文的一致性,并记录推理过程。
在SummEval基准数据集上的测试结果显示,采用少样本CoT提示后性能提升2个百分点(从0.78提高到0.8),向大规模自动识别LLM幻觉迈出重要一步。
错误类型分类的实际应用
通过分析常见LLM幻觉的语言模式,我们提出了一套新颖的错误类型。例如"时间推理"标签类型适用于响应声称新创新正在使用中,而上下文表明该创新将在未来使用的情况。
理解错误类型在LLM响应中的分布支持更有针对性的幻觉缓解。如果大多数错误声明与上下文中的特定断言矛盾,可以探索共同原因(如允许对话轮次过多),并通过限制轮次或使用先前轮次的摘要来减轻幻觉。
虽然HalluMeasure能为研究人员提供模型幻觉来源的洞察,但生成式AI的风险仍在不断演变。我们继续在负责任AI领域推动创新,探索无参考检测、针对特定用例的动态少样本提示技术,以及集成智能AI框架。