语言模型抗对齐性:数据压缩视角

本文通过数据压缩理论探讨大型语言模型的对齐弹性现象,揭示微调过程中模型倾向于回归预训练分布的特性,并验证模型规模与预训练数据量对弹性的正向影响,为提升模型对齐鲁棒性提供理论依据。

语言模型抗对齐性:数据压缩视角

大型语言模型(LLMs)可能表现出意外或不良行为。近期研究集中于对齐LLMs以减少有害输出。尽管付出这些努力,某些异常表明即使执行良好的对齐过程也可能被轻易规避(无论有意或无意)。对齐微调是否对模型产生稳健影响?抑或其影响仅是表面的?

本研究首次从理论和实证角度探索这一现象。实证方面,我们证明了后对齐模型的弹性——即进一步微调时倾向于回归预训练阶段形成的行为分布。基于压缩理论,我们正式推导出微调对对齐的破坏作用远超过预训练,可能达到数量级差异。我们通过在多种类型和规模的模型上实验验证了弹性存在。

具体而言,我们发现模型性能在回归预训练分布前快速下降,此后下降速率显著减缓。进一步研究表明,弹性与模型规模增大及预训练数据扩展呈正相关。这些发现强调需解决LLMs固有弹性以缓解其对齐抗性。模型权重和代码可通过指定链接获取。

本文发表于ACL2025主会议

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计