一种改进的强化学习人类反馈训练方法
通过对比奖励差异显著的训练对,能够减少伪相关性,使直接对齐算法的性能提升高达20%-40%。
方法概述
强化学习人类反馈(RLHF)是将大语言模型(LLMs)与人类偏好(如非毒性语言和事实准确响应)对齐的标准方法。最近最流行的RLHF方法之一是直接偏好优化(DPO),即LLM在两个输出选项中选择,其中一个被人类标注者标记为偏好选项。
然而,DPO及其他类似直接对齐算法存在LLM从数据中学习伪相关性的风险。例如在毒性数据集中,严肃、深思熟虑的响应通常比攻击性响应更长。在RLHF过程中,LLM可能因此学会偏好较长响应,但这在一般情况下并非最优。
SeRA方法
在国际学习表征会议(ICLR)上提出的SeRA(自审查与对齐)方法可限制此类伪相关性。首先,在人类标注数据上进行首轮RLHF后,使用LLM自身生成额外训练样本,然后基于LLM的输出概率评估训练对的偏好强度,仅保留偏好响应被强烈偏好的样本。
技术实现
- 执行传统DPO,使用人类标注的样本对数据集
- 使用更新后的模型生成新训练样本集
- 为每个生成响应对分配基于模型生成概率的偏好分数
- 仅保留偏好响应分数显著高于非偏好响应的样本对
- 使用相同指标过滤原始人类标注数据集
- 将过滤后的原始数据集样本与生成数据集样本合并,再次执行DPO
- 重复该过程,直到模型性能收敛
实验验证
在四个基准数据集上,将SeRA训练模型与三个基线模型进行比较。对于每个测试输入,使用现成LLM选择更好响应。SeRA训练模型在 pairwise 比较中的胜率全面高于所有基线模型,最高提升幅度达20%-40%。
方法优势
与传统RLHF需要单独奖励模型不同,DPO无需第二模型,但平等对待所有训练对。SeRA通过引入奖励差异,使模型能区分强烈偏好与轻微偏好,减少伪相关性学习风险。
注意事项
虽然该方法在四个基准数据集上有效,但可能存在假设不成立的情况,因此应用SeRA方法时需要监控模型收敛行为。同时存在模型生成数据训练可能引发反馈循环的风险,因此每次数据遍历时,模型奖励不仅基于当前迭代,还考虑历史迭代以确保训练数据特征连续性。
相关研究:SeRA: 使用隐式奖励边际的LLM自审查与对齐