大语言模型正则化微调去毒技术

本文介绍通过属性控制微调方法实现大语言模型去毒化的技术方案,包括并行化算法设计、自适应正则化应用,以及在ToxiGen和Wikitext数据集上的实验验证,在保持模型性能的同时有效降低毒性输出生成概率。

大语言模型通过正则化微调实现去毒化

属性控制微调可产生符合政策要求的大语言模型(LLM),同时在通用基准测试中保持竞争力。

约束条件定义

成功训练的LLM应满足以下约束:(1) 属性控制——输出符合创建者制定的政策;(2) 效用保持——在效用基准测试中保持与原模型相当的性能;(3) 训练效率——微调成本与典型微调相当。

技术方法

受约束驱动学习和后验正则化的启发,训练辅助模型控制输出属性(如毒性)。微调过程中,辅助模型估算最接近约束条件的分布,并惩罚与当前分布的差距。

并行化算法

提出并行化算法同步更新基础LLM和正则化器,时间复杂度与无正则化微调相同,实证表明其性能与顺序微调相当。

自适应正则化

采用领域特定正则化器处理训练数据相关部分,以提升性能并防止灾难性遗忘。

实验验证

效用保持

在ToxiGen(含毒性响应数据)和Wikitext(通用语料)的混合语料上对Llama-7B和Falcon-7B进行微调。采用自适应正则化器的方法整体性能优于强化学习(RL)和过滤标准方法,同时满足毒性控制标准。

Llama-7B与Falcon-7B毒性控制基准性能

模型 方法 ToxiGen(越低越好) MMLU(5-shot,越高越好) 常识推理(0-shot,越高越好)
Llama-7B 基线 23 35.1 75.6
过滤 21.9 34.6 75.1
RL 15.2 33.6 73.2
NADO解码 15.2 31.1 71.4
无自适应 15.2 30.4 71.9
含自适应 14.2 33.9 73.6
Falcon-7B 基线 14 27.2 76.1
过滤 13.6 26.4 74.9
RL 9.8 25.4 74.4
NADO解码 7.3 23.6 72.5
无自适应 7.1 23.1 71.8
含自适应 7.3 26.1 74.5

生成质量保持

当OPT-30B作为评判器时,本方法生成序列的质量与基础模型无差异,且优于过滤和RL方法训练的模型。

相对基线胜率

胜率 基线 过滤 RL 本方法
基线 N/A 44.3 45.1 51.4
过滤 55.7 N/A 53.4 61.6
RL 54.9 46.6 N/A 61.3
本方法 48.6 38.4 38.7 N/A

毒性分类与生成

使用Jigsaw毒性内容数据集对Llama-7B进行毒性分类任务微调。标准监督微调虽提升分类性能,但增加了生成毒性内容的概率;而本方法在提升分类性能的同时降低了生成毒性。

Llama-7B毒性控制下的Jigsaw性能

模型 API毒性 分类ROC
基线 0.315 0.910
SFT(LLM损失) 0.344 0.966
本方法(LLM损失) 0.288 0.959
SFT(分类) 0.314 0.972

致谢

感谢加州大学洛杉矶分校的陶萌(Tao Meng)领导本项研究,以及合作作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计