摘要
大型语言模型(LLM)的后训练方法近期取得显著进展,其中强化学习(RL)已成为提升推理能力的关键组成部分。然而,基于RL的方法需要高昂的计算成本,这促使研究者对直接偏好优化(DPO)等替代范式产生浓厚兴趣。
本研究通过迭代式偏好学习探讨了DPO在促进LLM自我改进方面的有效性。研究表明,单轮粗筛选DPO即可显著提升数学推理性能,尤其对强基础模型效果明显。此外,设计了生成器与奖励模型(RM)的迭代增强框架,使二者能够通过多轮DPO在线交互实现相互改进。最终,通过简单可验证的奖励机制,提出的DPO-VP模型以显著较低的计算开销达到了RL级别的性能表现。
这些发现表明,DPO可作为RL的可扩展且经济高效的替代方案,为资源受限环境下增强LLM推理能力提供了实用解决方案。
研究方法
采用迭代式直接偏好优化框架,包含以下核心组件:
- 基础模型的多轮自我改进机制
- 生成器与奖励模型的协同优化流程
- 基于在线交互的偏好学习策略
- 可验证奖励机制的设计与实施
实验结果
在数学推理任务上的测试表明:
- 单轮DPO处理即可获得显著性能提升
- 迭代框架持续改善模型表现
- DPO-VP在计算效率方面显著优于传统RL方法
- 在强基础模型上观察到最明显的改进效果
结论
迭代DPO为LLM推理能力提升提供了高效且可扩展的解决方案,特别适用于计算资源受限的应用场景。该方法不仅降低了训练成本,同时保持了与RL相当的性能水平,为实际部署提供了新的技术路径。