高效训练大语言模型的新方法

本文介绍了一种名为分布编辑模型的新型训练框架,通过分别训练不同数据集模型再合并的方式,将大语言模型训练计算成本降低高达91%,同时在多个基准测试中实现最高16.1%的质量提升。

高效训练大语言模型的新方法

大语言模型通常需要在具有不同分布的数据集上经历多个训练阶段,包括预训练、指令微调和基于人类反馈的强化学习。找到跨数据集的最佳数据分布组合对于构建准确模型至关重要,但这通常需要在大量组合上多次训练和评估模型。

在上一届自然语言处理经验方法会议上,研究人员提出了一种训练框架,可将使用混合数据分布训练大语言模型或其他基于神经网络模型的计算成本降低高达91%。同时,该方法实际上提高了最终模型的质量。

分布编辑模型

传统训练方法通过称为网格搜索的穷举搜索方法来选择最佳训练数据分布组合,这在时间和资源方面都非常耗时,而且在灵活性方面也存在局限:一旦模型训练完成,不付出类似成本就无法更改。

为了解决这些限制,研究人员提出在对应不同任务的数据分布上对预训练模型进行微调,然后从微调模型的参数值中减去原始模型的参数值。他们将参数值的差异称为分布向量,并通过将分布向量的加权和添加到原始模型的参数中来生成复合模型。

他们将所得模型称为分布编辑模型,以突出利用权重向量算术进行模型编辑的特点。权重基于每个微调模型的困惑度,即其参数值可以从原始模型预测的概率。

方法优势

这种方法依赖于两个关键观察:

  1. 在每个数据集上分别训练模型可以更好地建模每个数据集的基本属性,因为在训练过程中不会受到其他数据分布的干扰
  2. 困惑度可以在验证数据上通过单次前向传播计算,这比网格搜索效率高得多

实施步骤

个体分布训练:通过标准训练程序在个体数据分布上训练原始模型。在特定数据集上训练后的模型状态快照被存储以供后续步骤使用。

分布向量计算:通过从微调模型的参数中减去预训练模型的参数来计算分布向量。这些向量捕捉每个数据集的独特特征。

合并系数优化:基于验证集上的困惑度,使用每个组合的单次前向传播找到组合数据分布向量的最优系数。

分布向量合并:通过使用可定制权重的线性组合分布向量,创建能够有效捕捉多样化数据集联合分布的统一模型。

结果特性:分布编辑模型支持在引入新数据集时进行增量更新,无需完全重新训练,这使其成为动态和大规模训练场景的理想选择。

评估与未来工作

在评估该方法时,研究人员专注于在指令微调阶段训练参数规模从30亿到130亿不等的逐渐增大的大语言模型。研究显示,分布编辑模型将训练成本降低高达91%,同时在传统数据混合策略基础上实现了高达16.1%的质量改进。

研究的主要发现包括:

卓越性能:在MMLU、BBH和HELM等流行基准测试中,分布编辑模型在个体任务上比数据混合方法提升高达16.1%。

多领域有效性:在MathQA、Super-Natural Instructions和Chain-of-Thought等数据集上的实验证明了分布编辑模型在各种领域中都能表现出色。

可扩展性:分布编辑模型在3B、7B和13B等不同模型规模下都能提高性能,为该方法可扩展性提供了有力证据。

分布编辑模型的有效性凸显了创新在使机器学习更加高效和可访问方面的重要性。随着机器学习社区继续扩展模型和数据集,像分布编辑模型这样的框架对于保持效率而不牺牲性能至关重要。未来的研究可能会探索该框架在其他训练场景中的有效性,以及其向其他模型架构的扩展。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计