大语言模型多步反馈蒸馏技术实现独立推理

本文提出MoL-RL训练范式,通过双目标优化框架将多步环境反馈信号蒸馏到大语言模型中,实现无需外部反馈的链式推理。该方法在数学推理和代码生成基准测试中取得最先进性能,并保持跨模型规模的强泛化能力。

MoL-RL:将多步环境反馈蒸馏到大语言模型中实现反馈独立推理

大型语言模型(LLMs)在有效利用顺序环境反馈(EF)信号(如自然语言评估)进行反馈独立的思维链(CoT)推理方面面临重大挑战。现有方法要么将EF转换为标量奖励(丢失丰富的上下文信息),要么采用精炼数据集(未能利用EF交互的多步和离散特性)。

为解决这些局限性,我们提出MoL-RL,这是一种通过双目标优化框架将多步EF信号集成到LLMs中的新型训练范式。该方法结合了MoL(混合损失)持续训练——将领域特定EF信号(通过交叉熵损失优化)和通用语言能力(通过KL散度保留)解耦——以及基于GRPO的后训练,将顺序EF交互蒸馏到单步推理中。这种协同作用实现了无需依赖外部反馈循环的鲁棒反馈独立推理。

在数学推理(MATH-500、AIME24/AIME25)和代码生成(CodeAgent-Test)基准测试中的实验结果表明,MoL-RL在使用Qwen3-8B模型时实现了最先进的性能,同时在模型规模(Qwen3-4B)上保持了强大的泛化能力。这项工作为利用多步文本反馈增强LLMs在不同领域的推理能力提供了一种有前景的方法。

论文信息:12页,3图 学科分类:计算与语言(cs.CL) 提交日期:2025年7月27日

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计