摘要
本研究探讨强化学习(RL)微调技术在紧凑型语言模型(Qwen2.5-0.5B Base)上对两项挑战性任务的有效性:指令跟随和数学推理。通过对比监督微调(SFT)、使用偏好标注数据的直接偏好优化(DPO)以及基于奖励模型的强化留一法(RLOO),实验表明采用DeBERTa奖励建模的RLOO实现了最佳对齐效果,而DPO则提供稳定且强劲的结果。针对数学推理任务,合成数据增强与基于外部验证器的N最佳采样显著提升了准确率,展现了微调与推理时工具结合的应用潜力。本研究揭示了训练轻量级任务对齐小规模语言模型时的关键权衡与实践策略。
方法
微调技术对比
- 监督微调(SFT):基于标注数据的标准微调方法
- 直接偏好优化(DPO):利用偏好标注数据优化模型输出
- 强化留一法(RLOO):结合奖励模型进行强化学习微调
数学推理增强策略
- 采用合成数据扩充训练集
- 引入外部验证器进行最佳N采样(best-of-N sampling)
- 通过推理时工具提升模型输出准确性
实验结果
- RLOO+DeBERTa奖励模型在指令对齐任务中表现最优
- DPO在所有任务中保持稳定且强劲的性能
- 数学推理任务准确率通过数据增强和验证器采样显著提升
- 证明了轻量级模型结合微调技术与推理工具的可行性
结论
研究揭示了不同微调技术在小规模语言模型任务对齐中的效果差异,为资源受限环境下训练高效语言模型提供了实践指导。强化学习微调与推理时工具的结合展现出显著潜力,特别是在数学推理等复杂任务中。