基于人类反馈的强化学习训练方法优化
方法概述
强化学习与人类反馈(RLHF)是将大语言模型与人类偏好(如非毒性语言和事实准确回应)对齐的标准方法。直接偏好优化(DPO)作为当前主流RLHF方法,存在学习数据伪相关性的风险。例如在毒性数据集中,深思熟虑的回应通常比攻击性回应更长,模型可能因此错误地偏好较长回应。
SeRA创新方法
在今年的国际学习表征会议(ICLR)上提出的SeRA(自审阅与对齐)方法包含两个核心步骤:
- 在人工标注数据上完成首轮RLHF后,使用更新后的模型自生成训练样本
- 基于模型生成概率计算回应偏好强度,仅保留偏好差异显著的训练对
技术实现
通过SeRA方法:
- 为每个输入样本生成获胜回应(yw)和失败回应(yl)
- 基于更新后模型的生成概率计算偏好分数
- 仅保留偏好分数差异显著的样本对(绿色),剔除差异不显著的样本(红色)
- 将筛选后的原始数据与生成数据结合进行DPO训练
- 通过迭代训练使生成数据占比逐渐增加,直至模型性能收敛
性能评估
在四个基准数据集上的测试表明:
- SeRA训练模型的胜率全面超越三个基线模型
- 性能提升幅度达到20%-40%
- 方法可推广到其他直接对齐算法
注意事项
虽然该方法在测试数据集中有效,但仍需监控模型收敛行为。使用模型生成数据训练可能存在反馈循环风险,因此每次迭代都需结合历史数据确保训练数据特征的连续性。