基于先验知识的最大后验偏好优化框架MaPPO

摘要

随着大语言模型(LLM)代理用户时代的到来，偏好优化(PO)方法已成为对齐人类偏好与提升模型性能的核心技术。提出最大后验偏好优化(MaPPO)框架，通过将先验奖励估计融入最大后验(MaP)目标，扩展了现有基于最大似然估计(MLE)的方法。该框架不仅能泛化DPO及其变体，还通过缓解响应二元分类的过度简化问题提升对齐效果。值得注意的是，MaPPO无需引入额外超参数，同时支持离线和在线优化场景，并可作为插件兼容SimPO、IPO、CPO等DPO变体。在MT-Bench、AlpacaEval 2.0和Arena-Hard三个基准测试中，不同规模模型系列的实验表明，该方法在保持计算效率的同时持续提升对齐性能。

技术亮点

先验知识整合：通过贝叶斯框架将先验奖励估计融入优化目标
兼容性设计：支持作为插件增强现有DPO变体（SimPO/IPO/CPO）
双模式优化：同时支持离线和在线偏好学习场景
效率保障：在7B至70B参数规模的LLM上验证计算效率

方法架构

概率建模：建立包含先验分布的响应偏好概率模型
优化目标：推导基于KL散度的正则化损失函数
动态加权：自动平衡先验知识与观测数据贡献
梯度分析：证明相比DPO具有更平滑的优化路径

实验结果

基准测试	相对DPO提升	训练耗时增幅
MT-Bench	+12.3%	<1%
AlpacaEval 2.0	+9.7%	0.8%
Arena-Hard	+15.2%	1.2%

应用价值

提升对话系统的安全对齐能力
增强基于人类反馈的强化学习(RLHF)稳定性
为多模态大模型的偏好学习提供通用框架