高效训练大语言模型的新方法
大语言模型(LLMs)通常需要在具有不同分布特征的混合数据集上经历多个训练阶段,包括预训练、指令微调和人类反馈强化学习。找到数据集间最优的数据分布组合对构建准确模型至关重要,但这通常需要在大量组合上反复训练和评估模型。
在最近的自然语言处理实证方法会议(EMNLP)上,研究人员提出了一种训练框架,可将使用混合数据分布训练LLMs或其他神经网络模型的计算成本降低高达91%。同时,该方法实际上提高了最终模型的质量。
分布编辑模型
传统训练方法(如指令微调)通过称为网格搜索的穷举搜索方法来选择最优训练数据分布组合,这种方法在时间和资源方面要求很高,且缺乏灵活性:模型一旦训练完成,要更改就需要付出类似成本。
为解决这些限制,研究人员提出在对应不同任务的数据分布上对预训练模型进行微调,然后从微调模型的参数值中减去原始模型的参数值。将参数值的差异称为分布向量,并通过将分布向量的加权和加到原始模型参数中来生成复合模型。
由此产生的模型称为分布编辑模型(DEM),以突出利用权重向量算术进行模型编辑的特点。权重基于每个微调模型的困惑度,即从其参数值预测原始模型参数值的概率。
这种方法依赖于两个关键观察:
- 在每个数据集上单独训练模型可以更好地建模每个数据集的基础特性,因为训练过程中没有其他数据分布的干扰
- 困惑度可以在验证数据上通过单次前向传播计算,这比网格搜索高效得多
详细步骤
-
个体分布训练:通过标准训练程序在个体数据分布上训练原始模型。存储检查点(在特定数据集上训练后的模型状态快照)供后续步骤使用
-
分布向量计算:通过从微调模型的参数中减去预训练模型的参数来计算分布向量。这些向量捕捉每个数据集的独特特征
-
合并系数优化:基于验证集上的困惑度,通过每个组合的单次前向传播找到组合数据分布向量的最优系数
-
分布向量合并:使用可定制权重线性组合分布向量,创建能够有效捕捉多样化数据集联合分布的统一模型
-
结果特性(灵活性和可扩展性):DEM支持在引入新数据集时进行增量更新,无需完全重新训练,这使其成为动态和大规模训练场景的理想选择
评估与未来工作
在评估该方法时,研究人员专注于在指令微调阶段训练参数规模从30亿到130亿不等的LLMs。研究表明,DEM将训练成本降低了高达91%,同时相比传统数据混合策略实现了高达16.1%的质量提升。
该研究的主要发现包括:
- 卓越性能:在MMLU、BBH和HELM等流行基准测试中,DEM在单个任务上相比数据混合实现了高达16.1%的改进
- 多领域有效性:在MathQA、Super-Natural Instructions(SNI)和Chain-of-Thought(CoT)等数据集上的实验证明了DEM在各种领域中的卓越表现
- 可扩展性:DEM在不同模型规模(3B、7B和13B)下都显示出性能改进,为该方法的可扩展性提供了有力证据
DEM的有效性强调了创新在使机器学习更高效和可访问方面的重要性。未来研究可能会探索该框架在其他训练场景中的有效性,以及其向其他模型架构(如编码器-解码器框架或专家混合模型)的扩展。