MoL-RL:将多步环境反馈蒸馏到大语言模型中实现反馈独立推理
大型语言模型(LLMs)在有效利用顺序环境反馈(EF)信号(如自然语言评估)进行反馈独立的思维链(CoT)推理方面面临重大挑战。现有方法要么将EF转换为标量奖励(丢失丰富的上下文信息),要么采用精炼数据集(未能利用EF交互的多步和离散特性)。
为解决这些局限性,我们提出MoL-RL,这是一种通过双目标优化框架将多步EF信号集成到LLMs中的新型训练范式。该方法结合了MoL(混合损失)持续训练——将领域特定EF信号(通过交叉熵损失优化)和通用语言能力(通过KL散度保留)解耦——以及基于GRPO的后训练,将顺序EF交互蒸馏到单步推理中。这种协同作用实现了无需依赖外部反馈循环的鲁棒反馈独立推理。
在数学推理(MATH-500、AIME24/AIME25)和代码生成(CodeAgent-Test)基准测试中的实验结果表明,MoL-RL在使用Qwen3-8B模型时实现了最先进的性能,同时在模型规模(Qwen3-4B)上保持了强大的泛化能力。这项工作为利用多步文本反馈增强LLMs在不同领域的推理能力提供了一种有前景的方法。
论文信息:12页,3图 学科分类:计算与语言(cs.CL) 提交日期:2025年7月27日