基于人类反馈的强化学习训练方法优化

本文介绍了一种名为SeRA的新型强化学习训练方法,通过对比奖励差异显著的训练对来减少伪相关性,使直接对齐算法的性能提升20%-40%。该方法利用模型自生成数据并进行概率评分筛选,在多个基准测试中表现出显著优势。

基于人类反馈的强化学习训练方法优化

方法概述

强化学习与人类反馈(RLHF)是将大语言模型与人类偏好(如非毒性语言和事实准确回应)对齐的标准方法。直接偏好优化(DPO)作为当前主流RLHF方法,存在学习数据伪相关性的风险。例如在毒性数据集中,深思熟虑的回应通常比攻击性回应更长,模型可能因此错误地偏好较长回应。

SeRA创新方法

在今年的国际学习表征会议(ICLR)上提出的SeRA(自审阅与对齐)方法包含两个核心步骤:

  1. 在人工标注数据上完成首轮RLHF后,使用更新后的模型自生成训练样本
  2. 基于模型生成概率计算回应偏好强度,仅保留偏好差异显著的训练对

技术实现

通过SeRA方法:

  • 为每个输入样本生成获胜回应(yw)和失败回应(yl)
  • 基于更新后模型的生成概率计算偏好分数
  • 仅保留偏好分数差异显著的样本对(绿色),剔除差异不显著的样本(红色)
  • 将筛选后的原始数据与生成数据结合进行DPO训练
  • 通过迭代训练使生成数据占比逐渐增加,直至模型性能收敛

性能评估

在四个基准数据集上的测试表明:

  • SeRA训练模型的胜率全面超越三个基线模型
  • 性能提升幅度达到20%-40%
  • 方法可推广到其他直接对齐算法

注意事项

虽然该方法在测试数据集中有效,但仍需监控模型收敛行为。使用模型生成数据训练可能存在反馈循环风险,因此每次迭代都需结合历史数据确保训练数据特征的连续性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计