通过注意力机制优化减少语言模型社会偏见

本文提出KLAAD框架,通过KL散度对齐注意力分布来减少生成式语言模型中的社会偏见。该方法在不直接修改模型权重的情况下,结合交叉熵、KL散度和三元组损失,在BBQ和BOLD基准测试中有效降低偏见同时保持语言建模质量。

KLAAD:通过精炼注意力机制减少生成式语言模型中的社会偏见

大型语言模型(LLM)的输出经常表现出社会偏见,引发了关于公平性和危害的伦理担忧。本研究提出KLAAD(KL注意力对齐去偏),这是一种基于注意力的去偏框架,能够在刻板印象和反刻板印象句子对之间隐式对齐注意力分布,而无需直接修改模型权重。

KLAAD引入了结合交叉熵、KL散度和三元组损失的复合训练目标,指导模型在保持流畅性和连贯性的同时,在偏见和无偏见上下文中保持一致的注意力分布。对KLAAD的实验评估显示,在BBQ和BOLD基准测试中,偏见缓解效果得到改善,且对语言建模质量的影响最小。

结果表明,注意力级别的对齐为减轻生成式语言模型中的偏见提供了一种原则性解决方案。该方法通过优化注意力机制,在不损害模型性能的前提下,有效减少了语言模型输出中的社会偏见问题。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计