大语言模型正则化微调去毒技术解析

本文提出通过属性控制微调方法使大语言模型在保持基准性能的同时降低毒性输出,采用并行化算法提升训练效率,实验证明该方法在毒性控制和生成质量上优于传统强化学习与过滤方案。

大语言模型通过正则化微调实现去毒

基于属性控制的微调技术可使大语言模型(LLM)在遵守内容政策的同时保持通用基准测试的竞争力。

核心约束目标

成功训练的LLM需满足三大约束条件:

  1. 属性控制:输出需符合开发者制定的内容政策(如避免毒性内容)
  2. 效用保持:在通用基准测试中保持与原模型相当的性能
  3. 训练效率:微调成本与常规微调相当

技术实现

受约束驱动学习和后验正则化启发,该方法通过辅助模型估计满足约束的最优分布,并惩罚LLM当前分布与目标分布的差距。创新点包括:

  • 并行化算法:同步更新基础LLM与正则器,相比串行方法将时间复杂度降至常规微调水平
  • 自适应正则化:对训练数据相关部分应用领域特定正则器,防止灾难性遗忘

实验结果

在Llama-7B和Falcon-7B模型上的测试显示:

  • 毒性控制:在ToxiGen测试集上毒性得分降低30%(Llama-7B从23降至14.2)
  • 性能保持:MMLU五样本测试准确率仅下降1.2个百分点(Llama-7B从35.1降至33.9)
  • 生成质量:以OPT-30B作为评判者时,生成内容质量与基线模型无显著差异

毒性分类任务表现

使用Jigsaw毒性数据集微调时,传统监督学习会加剧模型毒性生成(API毒性得分从0.315升至0.344),而本方法在提升分类ROC至0.959的同时将毒性得分降至0.288。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计