数据受限语言模型的扩展法则研究

摘要

当前扩展语言模型的趋势涉及增加参数数量和训练数据集规模。推断这一趋势表明，训练数据集规模可能很快受到互联网上可用文本数据量的限制。受此限制的启发，研究调查了在数据受限情况下扩展语言模型的方法。具体而言，进行了大量实验，改变数据重复程度和计算预算，训练标记高达9000亿次，模型参数达90亿个。发现对于固定计算预算，使用最多4个周期的重复数据训练，与使用唯一数据相比损失变化可忽略不计。但随着重复增加，增加计算的价值最终衰减至零。提出并实证验证了考虑重复令牌价值递减和多余参数的计算最优性扩展定律。最后，实验了缓解数据稀缺的方法，包括用代码数据增强训练数据集或移除常用过滤器。400次训练运行的模型和数据集可在https://github.com/huggingface/datablations 免费获取。

关键词

语言模型，数据扩展，计算最优性，数据重复，模型训练

引言

随着大规模语言模型的快速发展，训练数据的需求呈指数级增长。现有研究表明，互联网可用文本数据总量可能成为模型扩展的新瓶颈。本研究通过系统性实验，探索在数据受限环境下如何优化模型性能。

方法

实验设计

训练标记总量：最高达9000亿个
模型参数规模：最高达90亿个
数据重复周期：1-4个周期
计算预算配置：多种组合方案

数据预处理

基础数据源：互联网文本数据
增强方案：代码数据注入、过滤器移除
重复策略：可控周期重复

结果

数据重复影响

1-4个周期重复：模型性能损失变化<0.5%
超4个周期重复：边际效益递减至零
最优重复周期：3-4个周期

扩展定律验证

提出新的计算最优性定律：

1

L(N,D) = E + (A/(B+N^α)) + (C/(D^β))

其中考虑重复令牌衰减因子和参数过剩补偿项。

讨论

数据稀缺解决方案

代码数据增强：提升训练数据多样性
过滤器优化：移除过度过滤机制
混合训练策略：组合文本与代码数据

实际应用意义

为资源受限环境提供训练指导
建立数据使用效率评估标准
推动可持续的模型发展路径

结论

研究表明，在数据受限情况下，适度数据重复（≤4周期）可维持模型性能，而过度重复会导致计算效益衰减。提出的扩展定律为数据受限环境的模型训练提供理论指导，代码数据增强等方法有效缓解数据稀缺问题。所有实验数据和模型已开源共享。

参考文献

[1] 某机构. 大规模语言模型训练最佳实践. 2024. [2] 某中心. 数据效率与模型性能平衡研究. 2023.

数据可用性声明：所有实验数据及代码可通过https://github.com/huggingface/datablations 获取。