大语言模型通过正则化微调实现去毒化

属性控制微调可产生符合政策要求的大语言模型（LLM），同时在通用基准测试中保持竞争力。

约束条件定义

成功训练的LLM应满足以下约束：(1) 属性控制——输出符合创建者制定的政策；(2) 效用保持——在效用基准测试中保持与原模型相当的性能；(3) 训练效率——微调成本与典型微调相当。

受约束驱动学习和后验正则化的启发，训练辅助模型控制输出属性（如毒性）。微调过程中，辅助模型估算最接近约束条件的分布，并惩罚与当前分布的差距。

提出并行化算法同步更新基础LLM和正则化器，时间复杂度与无正则化微调相同，实证表明其性能与顺序微调相当。

采用领域特定正则化器处理训练数据相关部分，以提升性能并防止灾难性遗忘。

在ToxiGen（含毒性响应数据）和Wikitext（通用语料）的混合语料上对Llama-7B和Falcon-7B进行微调。采用自适应正则化器的方法整体性能优于强化学习（RL）和过滤标准方法，同时满足毒性控制标准。

Llama-7B与Falcon-7B毒性控制基准性能

模型	方法	ToxiGen（越低越好）	MMLU（5-shot，越高越好）	常识推理（0-shot，越高越好）
Llama-7B	基线	23	35.1	75.6
	过滤	21.9	34.6	75.1
	RL	15.2	33.6	73.2
	NADO解码	15.2	31.1	71.4
	无自适应	15.2	30.4	71.9
	含自适应	14.2	33.9	73.6
Falcon-7B	基线	14	27.2	76.1
	过滤	13.6	26.4	74.9
	RL	9.8	25.4	74.4
	NADO解码	7.3	23.6	72.5
	无自适应	7.1	23.1	71.8
	含自适应	7.3	26.1	74.5

当OPT-30B作为评判器时，本方法生成序列的质量与基础模型无差异，且优于过滤和RL方法训练的模型。

相对基线胜率

使用Jigsaw毒性内容数据集对Llama-7B进行毒性分类任务微调。标准监督微调虽提升分类性能，但增加了生成毒性内容的概率；而本方法在提升分类性能的同时降低了生成毒性。

Llama-7B毒性控制下的Jigsaw性能

感谢加州大学洛杉矶分校的陶萌（Tao Meng）领导本项研究，以及合作作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。