语义一致性提示优化新方法Sem-DPO解析

本文介绍Sem-DPO方法,通过语义加权机制解决直接偏好优化中的语义不一致问题。在三个文本到图像提示优化基准测试中,该方法比DPO获得8-12%的CLIP相似度提升和5-9%的人类偏好分数提升,为语言模型语义感知偏好优化奠定基础。

Sem-DPO:缓解提示工程偏好优化中的语义不一致问题

生成式AI现已能够从文本合成惊人逼真的图像,但输出质量仍然高度依赖于提示语的表述方式。直接偏好优化(DPO)为自动提示工程提供了轻量级的离策略替代方案,但其令牌级正则化无法控制语义不一致性——获得更高偏好得分的提示仍可能偏离用户的原本意图。

本文介绍Sem-DPO,这是DPO的一种变体,既能保持语义一致性,又保留其简单性和效率。Sem-DPO根据获胜提示与原始提示的差异程度调整损失权重,减少语义错位训练样本的影响。研究首次提供了偏好调优提示生成器语义漂移的分析边界,证明Sem-DPO能将学习到的提示保持在原始文本的可证明边界邻域内。

在三个标准文本到图像提示优化基准测试和两个语言模型上,Sem-DPO相比DPO实现了8-12%的CLIP相似度提升和5-9%的人类偏好分数(HPSv2.1、PickScore)提升,同时优于最先进的基线方法。这些发现表明,采用语义加权增强的强扁平基线应成为提示优化研究的新标准,并为语言模型中更广泛的语义感知偏好优化奠定基础。

主题分类: 计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)

引用信息: arXiv:2507.20133 [cs.CL]

提交历史:

  • 版本1:2025年7月27日
  • 版本2:2025年7月29日
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计