基于思维链的幻觉检测自动化技术

本文介绍了一种名为HalluMeasure的创新方法,通过声明级评估、思维链推理和幻觉错误类型分类的三重技术组合,实现对大语言模型幻觉的自动检测和精细分析,显著提升检测准确率达2个百分点。

基于思维链推理实现幻觉检测自动化

当大型语言模型(LLM)被询问"圣约翰草可能与哪些药物发生相互作用?“时,它并不会检索经过医学验证的药物相互作用列表(除非经过专门训练),而是根据与圣约翰草相关的词汇分布生成列表。结果很可能混合真实药物和潜在虚构药物,并带有不同级别的交互风险。这类LLM幻觉——听起来合理但可验证为错误的断言或主张——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域存在减少幻觉的方法,但识别和测量幻觉仍然是生成式AI安全使用的关键。

在最近一次自然语言处理实证方法会议(EMNLP)上发表的论文中,我们介绍了HalluMeasure方法。这种方法采用三种技术的新颖组合:声明级评估、思维链推理以及将幻觉按错误类型进行语言学分类。

HalluMeasure首先使用声明提取模型将LLM响应分解为一组声明。通过单独的声明分类模型,将其与上下文(与请求相关的检索文本,同样输入分类模型)进行比较,将声明分为五个关键类别(支持、缺失、矛盾、部分支持和不可评估)。此外,HalluMeasure还将声明分为10种不同的语言错误类型(例如实体、时间和过度泛化),提供对幻觉错误的细粒度分析。最后,通过测量不支持声明(即被分配为非支持类别的声明)的比例来计算聚合幻觉分数,并统计细粒度错误类型的分布。这种分布为LLM开发者提供了有关模型错误性质的宝贵见解,有助于进行针对性改进。

将响应分解为声明

该方法的第一步是将LLM响应分解为一组声明。“声明"的直观定义是可以根据上下文进行评估的最小信息单元;通常,它是包含主语和(可选)宾语的单个谓词。

选择在声明级别进行评估是因为单个声明的分类提高了幻觉检测准确性,且声明的更高原子性允许更精确的测量和定位幻觉。与现有方法不同,我们直接从完整响应文本中提取声明列表。

声明提取模型使用少样本提示,从初始指令开始,随后是一组 outlining 任务需求的规则。还包括一组示例响应及其手动提取的声明。这种全面的提示有效地教导LLM(无需更新模型权重)从任何给定响应中准确提取声明。提取声明后,按幻觉类型对其进行分类。

声明分类中的高级推理

最初遵循传统方法直接提示LLM对提取的声明进行分类,但这未达到性能标准。因此我们转向思维链(CoT)推理,要求LLM不仅执行任务还要证明其每个行动的合理性。这已被证明不仅能提高LLM性能,还能增强模型可解释性。

我们开发了五步CoT提示,将精心策划的声明分类示例(少样本提示)与指导声明分类LLM彻底检查每个声明对参考上下文的忠实度并记录每次检查背后推理的步骤相结合。

实施后,我们在流行的SummEval基准数据集上将HalluMeasure的性能与其他可用解决方案进行比较。结果清楚显示少样本CoT提示带来性能改进(提高2个百分点,从0.78到0.8),使我们朝着大规模自动识别LLM幻觉迈进一步。

细粒度错误分类

HalluMeasure通过提供对产生幻觉类型的更深入洞察,实现增强LLM可靠性的更有针对性解决方案。超越二元分类或常用的自然语言推理(NLI)类别(支持、反驳和信息不足),我们通过分析常见LLM幻觉中的语言模式提出一组新颖的错误类型。例如,一个提议的标签类型是时间推理,适用于响应声称新创新正在使用中,而上下文声称新创新将在未来使用的情况。

此外,了解错误类型在LLM响应中的分布允许更有针对性的幻觉缓解。例如,如果大多数错误声明与上下文中的特定断言矛盾,可以探索常见原因——比如在对话中允许大量(例如>10)回合。如果较少回合减少这种错误类型,限制回合数或使用先前回合的摘要可以缓解幻觉。

虽然HalluMeasure可以为科学家提供模型幻觉来源的见解,但生成式AI的风险仍在不断演变。因此,我们通过探索无参考检测、采用针对特定用例定制的动态少样本提示技术以及整合代理AI框架,继续在负责任AI领域推动创新。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计