一种改进的人类反馈强化学习训练方法
通过对比奖励差异显著的训练对,能够减少伪相关性,将直接对齐算法的性能提升20%–40%。
方法概述
人类反馈强化学习(RLHF)是将大语言模型与人类偏好(如无毒性语言和事实准确回应)对齐的标准方法。近期最流行的RLHF方法是直接偏好优化(DPO),即模型在两个输出选项中选择被人标注者标记为偏好的选项。
然而DPO及其他类似直接对齐算法存在风险:模型可能从数据中学习伪相关性。例如在毒性数据集中,严肃认真的回应通常比攻击性回应更长,模型可能因此错误地偏好较长回应。
SeRA解决方案
在国际学习表征会议(ICLR)上提出的SeRA(自评审与对齐)方法包含两个阶段:
- 在人工标注数据上完成首轮RLHF后,使用模型自身生成额外训练样本
- 基于模型输出概率评估训练对的偏好强度,仅保留偏好响应明显占优的样本对
性能验证
在四个基准数据集上,SeRA训练模型的胜率全面超越三个基线模型,优势幅度达20%-40%。
技术原理
- 传统RLHF需单独训练奖励模型,耗时且扩展性差
- DPO虽无需第二模型,但平等对待所有训练对,忽略偏好强度差异
- SeRA通过概率评分机制筛选高差异度样本对,强化关键特征学习
实施流程
- 执行常规DPO训练获得初始模型
- 使用更新后模型生成新响应对(优胜者yw和失败者yl)
- 为每个响应计算基于生成概率的偏好评分
- 保留偏好响应评分显著较高的样本对(绿色),丢弃其他(红色)
- 合并筛选后的原始数据集与生成数据集进行再次DPO
- 迭代过程中生成样本占比逐渐增加,直至模型性能收敛
注意事项
- 方法假设预期对比(如毒性/非毒性)强度大于非预期对比(如响应长度)
- 需监控模型收敛行为防止假设不成立的情况
- 存在模型生成数据训练可能导致反馈循环的风险
- 每次迭代奖励需兼顾当前与历史迭代,确保训练数据特征连续性
扩展应用
虽然实验采用DPO,但该方法可推广到其他直接对齐算法。该方法为减少大语言模型训练中的伪相关性提供了有效解决方案。
相关研究:SeRA: 使用隐式奖励边界的大语言模型自评审与对齐