数据受限语言模型的扩展法则研究

Wed, 10 Sep 2025 15:38:00 +0800

摘要

当前扩展语言模型的趋势涉及增加参数数量和训练数据集规模。推断这一趋势表明，训练数据集规模可能很快受到互联网上可用文本数据量的限制。受此限制的启发，研究调查了在数据受限情况下扩展语言模型的方法。具体而言，进行了大量实验，改变数据重复程度和计算预算，训练标记高达9000亿次，模型参数达90亿个。发现对于固定计算预算，使用最多4个周期的重复数据训练，与使用唯一数据相比损失变化可忽略不计。但随着重复增加，增加计算的价值最终衰减至零。提出并实证验证了考虑重复令牌价值递减和多余参数的计算最优性扩展定律。最后，实验了缓解数据稀缺的方法，包括用代码数据增强训练数据集或移除常用过滤器。400次训练运行的模型和数据集可在https://github.com/huggingface/datablations 免费获取。

数据扩展 on 办公AI智能小助手

数据受限语言模型的扩展法则研究

摘要