PITA:基于偏好引导的大语言模型推理时对齐技术
摘要
推理时对齐使大语言模型(LLM)能够生成符合最终用户偏好的输出,而无需进一步训练。近期的后训练方法通过使用小型引导模型在推理过程中修改token生成来实现这一目标。这些方法通常优化以原始LLM作为参考策略的KL正则化奖励函数。然而,一个关键限制是它们依赖于预训练的奖励模型,这需要拟合人类偏好反馈——一个可能不稳定的过程。
相比之下,本文提出PITA这一新颖框架,直接将偏好反馈集成到LLM的token生成中,消除了对奖励模型的需求。PITA学习基于偏好的小型引导策略,在推理时修改token概率,无需LLM微调,从而降低计算成本并绕过预训练奖励模型的依赖。该问题被定义为识别底层偏好分布,通过随机搜索和基于偏好的引导模型的迭代优化来解决。
评估结果
在数学推理和情感分类等多样化任务上评估PITA,证明其在将LLM输出与用户偏好对齐方面的有效性。
技术特点
- 无需预训练奖励模型
- 避免LLM微调过程
- 通过随机搜索实现偏好分布识别
- 支持推理时实时对齐
应用领域
- 数学推理任务
- 情感分类任务
- 用户偏好对齐场景