强化学习微调大语言模型中的稀疏子网络
强化学习(RL)是将大语言模型(LLMs)与复杂任务和人类偏好对齐的关键后预训练步骤。尽管通常认为RL微调需要更新模型的大部分参数,但我们通过一个惊人发现挑战了这一假设:RL微调仅一致地修改一个小型子网络(通常占权重的5-30%),而大多数参数保持不变。我们称这一现象为RL诱导的参数更新稀疏性。
该现象自然出现,无需任何稀疏性约束或参数高效调优,并在多种RL算法(例如PPO、DPO、SimPO、PRIME)和模型家族(例如某中心、某机构及开源LLMs)中普遍存在。此外,由RL更新的子网络在不同种子、数据集和算法之间显示出显著的重叠——远超出随机概率——表明预训练模型中存在部分可转移的结构。
实验表明,仅微调这一稀疏子网络即可恢复全模型性能,并产生与完全微调模型几乎相同的参数。分析表明,这种稀疏性出现的原因是RL在模型原始分布附近操作,仅需要针对性更改。KL惩罚、梯度裁剪和策略动态对稀疏模式的影响有限。
这些发现揭示了RL如何适应模型:不是通过移动所有权重,而是通过将训练聚焦于一个小型且一致更新的子网络。这一见解启发了更高效的RL方法,并通过彩票假设的视角重新诠释了稀疏性。
注意:该手稿因与先前工作(arXiv:2505.11711)在方法和结果上存在显著重叠而被撤回,以维护学术诚信并避免文献冗余。