利用思维链推理自动化检测大模型幻觉

当大型语言模型（LLM）被询问"圣约翰草可能与哪些药物相互作用"时，它并不会检索经过医学验证的药物相互作用列表（除非经过专门训练），而是根据与圣约翰草相关的词汇分布生成列表。结果很可能混合真实药物和潜在虚构药物，具有不同程度的交互风险。这类LLM幻觉——听起来合理但可验证为错误的断言或主张——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域存在减少幻觉的方法，但识别和测量幻觉的需求仍然是生成式AI安全使用的关键。

在最近一次自然语言处理实证方法会议（EMNLP）上发表的论文中，我们描述了HalluMeasure方法。这种幻觉测量方法创新性地结合了三种技术：声明级评估、思维链推理以及将幻觉按错误类型进行语言学分类。

HalluMeasure首先使用声明提取模型将LLM响应分解为一组声明。通过独立的声明分类模型，将其与上下文（检索到的与请求相关的文本，同样输入分类模型）进行比较，将声明分为五个关键类别（支持、缺失、矛盾、部分支持和不可评估）。此外，HalluMeasure还将声明分为10种不同的语言错误类型（例如实体、时间和过度泛化），提供对幻觉错误的细粒度分析。最后，通过测量未支持声明（即被分配非支持类别的声明）的比例计算聚合幻觉分数，并统计细粒度错误类型的分布。这种分布为LLM开发者提供了关于模型错误性质的宝贵见解，促进针对性改进。

将响应分解为声明

该方法的第一步是将LLM响应分解为一组声明。“声明"的直观定义是可针对上下文进行评估的最小信息单元；通常是一个包含主语和（可选）宾语的单一谓词。

选择在声明级别进行评估，是因为单个声明的分类提高了幻觉检测准确性，且声明的更高原子性允许更精确的测量和定位幻觉。与现有方法不同，我们直接从完整响应文本中提取声明列表。

声明提取模型使用少样本提示，从初始指令开始，后跟一组概述任务要求的规则。还包括一组示例响应及其手动提取的声明。这种全面的提示有效地教导LLM（无需更新模型权重）从任何给定响应中准确提取声明。提取声明后，按幻觉类型进行分类。

声明分类中的高级推理

最初遵循传统方法直接提示LLM对提取的声明进行分类，但这未达到性能标准。因此转向思维链（CoT）推理，要求LLM不仅执行任务，还要证明其采取的每个行动。这已被证明不仅能提高LLM性能，还能提高模型可解释性。

开发了五步CoT提示，将精选的声明分类示例（少样本提示）与指导声明分类LLM彻底检查每个声明对参考上下文的忠实度并记录每次检查背后推理的步骤相结合。

实施后，在流行的SummEval基准数据集上将HalluMeasure性能与其他可用解决方案进行比较。结果清楚显示少样本CoT提示性能改进（从0.78提高到0.8，提高2个百分点），使我们更接近大规模自动识别LLM幻觉。

细粒度错误分类

HalluMeasure通过提供对所产生幻觉类型的更深入见解，实现增强LLM可靠性的更有针对性解决方案。超越二元分类或常用的自然语言推理（NLI）类别（支持、反驳和信息不足），通过分析常见LLM幻觉中的语言模式，提出一组新颖的错误类型。例如，一个提议的标签类型是时间推理，适用于响应声称新创新正在使用中，而上下文声称新创新将在未来使用的情况。

此外，了解错误类型在LLM响应中的分布允许更有针对性的幻觉缓解。例如，如果大多数错误声明与上下文中的特定断言矛盾，可以探索常见原因——比如在对话中允许大量（例如>10）轮次。如果较少轮次减少这种错误类型，限制轮次数量或使用先前轮次的摘要可以缓解幻觉。

虽然HalluMeasure可以为科学家提供模型幻觉来源的见解，但生成式AI的风险仍在不断演变。因此，我们通过探索无参考检测、采用针对特定用例定制的动态少样本提示技术以及整合代理AI框架，继续在负责任AI领域推动创新。