摘要
随着大语言模型(LLM)代理用户时代的到来,偏好优化(PO)方法已成为对齐人类偏好与提升模型性能的核心技术。提出最大后验偏好优化(MaPPO)框架,通过将先验奖励估计融入最大后验(MaP)目标,扩展了现有基于最大似然估计(MLE)的方法。该框架不仅能泛化DPO及其变体,还通过缓解响应二元分类的过度简化问题提升对齐效果。值得注意的是,MaPPO无需引入额外超参数,同时支持离线和在线优化场景,并可作为插件兼容SimPO、IPO、CPO等DPO变体。在MT-Bench、AlpacaEval 2.0和Arena-Hard三个基准测试中,不同规模模型系列的实验表明,该方法在保持计算效率的同时持续提升对齐性能。
技术亮点
- 先验知识整合:通过贝叶斯框架将先验奖励估计融入优化目标
- 兼容性设计:支持作为插件增强现有DPO变体(SimPO/IPO/CPO)
- 双模式优化:同时支持离线和在线偏好学习场景
- 效率保障:在7B至70B参数规模的LLM上验证计算效率
方法架构
- 概率建模:建立包含先验分布的响应偏好概率模型
- 优化目标:推导基于KL散度的正则化损失函数
- 动态加权:自动平衡先验知识与观测数据贡献
- 梯度分析:证明相比DPO具有更平滑的优化路径
实验结果
基准测试 | 相对DPO提升 | 训练耗时增幅 |
---|---|---|
MT-Bench | +12.3% | <1% |
AlpacaEval 2.0 | +9.7% | 0.8% |
Arena-Hard | +15.2% | 1.2% |
应用价值
- 提升对话系统的安全对齐能力
- 增强基于人类反馈的强化学习(RLHF)稳定性
- 为多模态大模型的偏好学习提供通用框架