MoL-RL：将多步环境反馈蒸馏到大语言模型中实现反馈独立推理

大型语言模型（LLMs）在有效利用顺序环境反馈（EF）信号（如自然语言评估）进行反馈独立的思维链（CoT）推理方面面临重大挑战。现有方法要么将EF转换为标量奖励（丢失丰富的上下文信息），要么采用精炼数据集（未能利用EF交互的多步和离散特性）。

为解决这些局限性，我们提出MoL-RL，这是一种通过双目标优化框架将多步EF信号集成到LLMs中的新型训练范式。该方法结合了MoL（混合损失）持续训练——将领域特定EF信号（通过交叉熵损失优化）和通用语言能力（通过KL散度保留）解耦——以及基于GRPO的后训练，将顺序EF交互蒸馏到单步推理中。这种协同作用实现了无需依赖外部反馈循环的鲁棒反馈独立推理。

在数学推理（MATH-500、AIME24/AIME25）和代码生成（CodeAgent-Test）基准测试中的实验结果表明，MoL-RL在使用Qwen3-8B模型时实现了最先进的性能，同时在模型规模（Qwen3-4B）上保持了强大的泛化能力。这项工作为利用多步文本反馈增强LLMs在不同领域的推理能力提供了一种有前景的方法。