提升语言模型推理一致性的技术突破

本文介绍通过知识蒸馏结合对比解码和反事实推理的方法,显著提升大语言模型链式思维推理的一致性。该方法在ACL会议上获得杰出论文奖,并在四项推理任务中全面超越基线模型。

提升语言模型推理一致性的技术方法

技术背景

大语言模型(LLM)的推理能力是自然语言处理领域的研究热点。链式思维(chain-of-thought)范式要求模型不仅输出答案,还需提供推理依据。但由于模型存在幻觉问题(即产生虚假事实断言),生成的推理依据常与预测答案不一致。

核心方法

知识蒸馏框架

  • 教师模型:使用参数冻结的预训练LLM,通过上下文学习生成问题-答案对的推理依据
  • 学生模型:较小规模的模型,学习同时生成答案和对应推理依据

对比解码(教师端)

  1. 对同一问题分别输入真实答案和扰动答案
  2. 选择在真实答案下概率高、在扰动答案下概率低的词汇
  3. 实验显示使用错误答案的对比解码效果优于空答案

反事实推理(学生端)

  1. 随机替换问题-答案对中的答案生成反事实数据
  2. 使用"事实"和"反事实"标签区分训练数据
  3. 强制模型建立推理依据与答案的逻辑关联

实验结果

人工评估结果

解码方法 语法正确性 新信息量 支持答案
贪婪解码 0.99 0.65 0.48
空答案对比解码 0.97 0.77 0.58
错误答案对比解码 0.97 0.82 0.63

量化指标

  • 使用泄漏调整模拟度(LAS)指标评估
  • 对比解码+知识蒸馏全面超越三个基线模型
  • 结合反事实推理后性能进一步提升
  • 在保持推理准确性的同时显著提升一致性

技术意义

该方法有效解决了链式思维推理中的两个关键问题:

  1. 教师模型生成空洞或无关推理依据
  2. 学生模型学习问题-答案间的推理捷径

这项研究获得ACL 2023杰出论文奖(主会议1074篇论文中仅39篇获奖),为提升语言模型推理可靠性提供了重要技术路径。

相关技术细节参见论文《SCOTT: Self-consistent chain-of-thought distillation》

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计