KLAAD:通过精炼注意力机制减少生成式语言模型中的社会偏见
大型语言模型(LLM)的输出经常表现出社会偏见,引发了关于公平性和危害的伦理担忧。本研究提出KLAAD(KL注意力对齐去偏),这是一种基于注意力的去偏框架,能够在刻板印象和反刻板印象句子对之间隐式对齐注意力分布,而无需直接修改模型权重。
KLAAD引入了结合交叉熵、KL散度和三元组损失的复合训练目标,指导模型在保持流畅性和连贯性的同时,在偏见和无偏见上下文中保持一致的注意力分布。对KLAAD的实验评估显示,在BBQ和BOLD基准测试中,偏见缓解效果得到改善,且对语言建模质量的影响最小。
结果表明,注意力级别的对齐为减轻生成式语言模型中的偏见提供了一种原则性解决方案。该方法通过优化注意力机制,在不损害模型性能的前提下,有效减少了语言模型输出中的社会偏见问题。