大语言模型通过正则化微调实现去毒化
属性控制微调可产生符合政策要求的大语言模型(LLM),同时在通用基准测试中保持竞争力。
约束条件定义
成功训练的LLM应满足以下约束:(1) 属性控制——输出符合创建者制定的政策;(2) 效用保持——在效用基准测试中保持与原模型相当的性能;(3) 训练效率——微调成本与典型微调相当。
技术方法
受约束驱动学习和后验正则化的启发,训练辅助模型控制输出属性(如毒性)。微调过程中,辅助模型估算最接近约束条件的分布,并惩罚与当前分布的差距。
并行化算法
提出并行化算法同步更新基础LLM和正则化器,时间复杂度与无正则化微调相同,实证表明其性能与顺序微调相当。
自适应正则化
采用领域特定正则化器处理训练数据相关部分,以提升性能并防止灾难性遗忘。
实验验证
效用保持
在ToxiGen(含毒性响应数据)和Wikitext(通用语料)的混合语料上对Llama-7B和Falcon-7B进行微调。采用自适应正则化器的方法整体性能优于强化学习(RL)和过滤标准方法,同时满足毒性控制标准。
Llama-7B与Falcon-7B毒性控制基准性能
模型 | 方法 | ToxiGen(越低越好) | MMLU(5-shot,越高越好) | 常识推理(0-shot,越高越好) |
---|---|---|---|---|
Llama-7B | 基线 | 23 | 35.1 | 75.6 |
过滤 | 21.9 | 34.6 | 75.1 | |
RL | 15.2 | 33.6 | 73.2 | |
NADO解码 | 15.2 | 31.1 | 71.4 | |
无自适应 | 15.2 | 30.4 | 71.9 | |
含自适应 | 14.2 | 33.9 | 73.6 | |
Falcon-7B | 基线 | 14 | 27.2 | 76.1 |
过滤 | 13.6 | 26.4 | 74.9 | |
RL | 9.8 | 25.4 | 74.4 | |
NADO解码 | 7.3 | 23.6 | 72.5 | |
无自适应 | 7.1 | 23.1 | 71.8 | |
含自适应 | 7.3 | 26.1 | 74.5 |
生成质量保持
当OPT-30B作为评判器时,本方法生成序列的质量与基础模型无差异,且优于过滤和RL方法训练的模型。
相对基线胜率
胜率 | 基线 | 过滤 | RL | 本方法 |
---|---|---|---|---|
基线 | N/A | 44.3 | 45.1 | 51.4 |
过滤 | 55.7 | N/A | 53.4 | 61.6 |
RL | 54.9 | 46.6 | N/A | 61.3 |
本方法 | 48.6 | 38.4 | 38.7 | N/A |
毒性分类与生成
使用Jigsaw毒性内容数据集对Llama-7B进行毒性分类任务微调。标准监督微调虽提升分类性能,但增加了生成毒性内容的概率;而本方法在提升分类性能的同时降低了生成毒性。
Llama-7B毒性控制下的Jigsaw性能
模型 | API毒性 | 分类ROC |
---|---|---|
基线 | 0.315 | 0.910 |
SFT(LLM损失) | 0.344 | 0.966 |
本方法(LLM损失) | 0.288 | 0.959 |
SFT(分类) | 0.314 | 0.972 |
致谢
感谢加州大学洛杉矶分校的陶萌(Tao Meng)领导本项研究,以及合作作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。