提升语言模型推理一致性的技术突破

本文介绍通过知识蒸馏结合对比解码和反事实推理的方法，显著提升大语言模型链式思维推理的一致性。该方法在ACL会议上获得杰出论文奖，并在四项推理任务中全面超越基线模型。

提升语言模型推理一致性的技术方法

技术背景

大语言模型（LLM）的推理能力是自然语言处理领域的研究热点。链式思维（chain-of-thought）范式要求模型不仅输出答案，还需提供推理依据。但由于模型存在幻觉问题（即产生虚假事实断言），生成的推理依据常与预测答案不一致。

核心方法

知识蒸馏框架

教师模型：使用参数冻结的预训练LLM，通过上下文学习生成问题-答案对的推理依据
学生模型：较小规模的模型，学习同时生成答案和对应推理依据

对比解码（教师端）

对同一问题分别输入真实答案和扰动答案
选择在真实答案下概率高、在扰动答案下概率低的词汇
实验显示使用错误答案的对比解码效果优于空答案

反事实推理（学生端）

随机替换问题-答案对中的答案生成反事实数据
使用"事实"和"反事实"标签区分训练数据
强制模型建立推理依据与答案的逻辑关联

实验结果

人工评估结果

解码方法	语法正确性	新信息量	支持答案
贪婪解码	0.99	0.65	0.48
空答案对比解码	0.97	0.77	0.58
错误答案对比解码	0.97	0.82	0.63

量化指标

使用泄漏调整模拟度（LAS）指标评估
对比解码+知识蒸馏全面超越三个基线模型
结合反事实推理后性能进一步提升
在保持推理准确性的同时显著提升一致性

技术意义

该方法有效解决了链式思维推理中的两个关键问题：

教师模型生成空洞或无关推理依据
学生模型学习问题-答案间的推理捷径

这项研究获得ACL 2023杰出论文奖（主会议1074篇论文中仅39篇获奖），为提升语言模型推理可靠性提供了重要技术路径。

相关技术细节参见论文《SCOTT: Self-consistent chain-of-thought distillation》

comments powered by Disqus