强化学习人类反馈新训练方法

本文介绍了一种名为SeRA的新型强化学习人类反馈训练方法,通过对比奖励差异显著的训练对来减少虚假相关性,使直接对齐算法的性能提升高达20%-40%,涵盖技术实现细节和实验验证结果。

一种改进的强化学习人类反馈训练方法

通过对比奖励差异显著的训练对,减少虚假相关性,使直接对齐算法的性能提升高达20%-40%。

方法概述

强化学习人类反馈(RLHF)是将大语言模型(LLMs)与人类偏好(如非毒性语言和事实准确响应)对齐的标准方法。最近最流行的RLHF方法之一是直接偏好优化(DPO),其中LLM在两个输出选项之间选择,其中一个被人类标注者标记为偏好选项。

然而,DPO及其他类似直接对齐算法存在从数据中学习虚假相关性的风险。例如在毒性数据集中,严肃认真的响应通常比攻击性响应更长。在RLHF过程中,LLM可能因此学会偏好较长响应,但这在一般情况下并非最优选择。

SeRA方法

在国际学习表征会议(ICLR)上提出的SeRA(自审阅和对齐)方法包含两个关键步骤:

  1. 初始训练:首先在人类标注数据上执行常规DPO训练
  2. 数据生成与过滤:使用更新后的模型生成新的训练样本,基于生成概率为每个响应分配偏好分数,仅保留偏好响应得分显著高于非偏好响应的样本对

技术实现

SeRA采用迭代训练流程:

  • 使用相同指标过滤原始人类标注数据集
  • 将过滤后的原始数据集样本与新生成数据集样本合并
  • 重复执行DPO训练,生成样本在数据集中占比逐渐增加,直到模型性能收敛

性能评估

在四个基准数据集上的评估显示:

  • SeRA训练模型的胜率全面高于三个基线模型
  • 性能提升幅度达到20%-40%
  • 方法可推广到其他直接对齐算法

注意事项

虽然该方法在测试数据集中表现良好,但仍需监控模型收敛行为,避免因使用模型生成数据训练而陷入反馈循环,导致初始数据集的某些特征被过度放大。

相关研究:SeRA: 使用隐式奖励边际进行LLMs自审阅和对齐

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计