思维链推理的挑战
大型语言模型(LLM)的思维链推理范式要求模型不仅回答问题,还需提供答案依据。但模型存在幻觉问题(即编造虚假事实),导致生成的依据与预测答案不一致,降低可信度。
创新解决方案
在某机构研究人员提出的SCOTT方法中:
- 教师模型采用对比解码技术:通过对比真实答案与扰动答案生成的依据差异,确保输出依据与答案高度相关
- 学生模型引入反事实训练:同时学习真实依据和人工构造的错误依据,强制建立依据与答案的逻辑关联
图:对比解码过程示意图,红色路径显示错误答案的推理分支
关键技术突破
- 对比解码:在保持模型参数不变的情况下,通过概率分布对比筛选最具区分度的依据
- 反事实目标函数:打破模型在问题与答案间建立捷径关联的倾向
- 双重标注机制:使用"事实"/“反事实"标签区分真实与构造的训练样本
实验验证
在四项推理任务的测试中:
- 人工评估显示对比解码生成的依据质量提升23%
- 泄漏调整模拟度(LAS)指标优于基线模型15-20%
- 保持原始任务准确率的同时显著提升依据可信度
|
|
应用价值
该方法为以下领域提供新思路:
- 可信AI系统开发
- 教育领域自动解题系统
- 法律文书自动生成
- 医疗诊断辅助决策
研究团队将继续探索在更大规模模型和多模态场景下的应用可能性。