大语言模型通过正则化微调实现去毒
基于属性控制的微调技术可使大语言模型(LLM)在遵守内容政策的同时保持通用基准测试的竞争力。
核心约束目标
成功训练的LLM需满足三大约束条件:
- 属性控制:输出需符合开发者制定的内容政策(如避免毒性内容)
- 效用保持:在通用基准测试中保持与原模型相当的性能
- 训练效率:微调成本与常规微调相当
技术实现
受约束驱动学习和后验正则化启发,该方法通过辅助模型估计满足约束的最优分布,并惩罚LLM当前分布与目标分布的差距。创新点包括:
- 并行化算法:同步更新基础LLM与正则器,相比串行方法将时间复杂度降至常规微调水平
- 自适应正则化:对训练数据相关部分应用领域特定正则器,防止灾难性遗忘
实验结果
在Llama-7B和Falcon-7B模型上的测试显示:
- 毒性控制:在ToxiGen测试集上毒性得分降低30%(Llama-7B从23降至14.2)
- 性能保持:MMLU五样本测试准确率仅下降1.2个百分点(Llama-7B从35.1降至33.9)
- 生成质量:以OPT-30B作为评判者时,生成内容质量与基线模型无显著差异
毒性分类任务表现
使用Jigsaw毒性数据集微调时,传统监督学习会加剧模型毒性生成(API毒性得分从0.315升至0.344),而本方法在提升分类ROC至0.959的同时将毒性得分降至0.288。