近线性扩展巨型模型训练的技术突破
现有顶尖语言模型参数规模达数十亿,为在可控时间内完成训练,需将工作负载分布到大型计算集群。理想情况下,训练时间应随集群规模线性减少,但由于节点间协调通信会抵消并行化收益,实现线性扩展极具挑战。
MiCS通信优化架构
分区组与复制组设计
与传统分布式训练框架将模型状态划分到所有GPU不同,MiCS创建多个模型状态副本,每个副本在GPU子集内分区。根据模型大小,副本可适配单个计算节点(GPU间高速互联)或多个节点。频繁通信操作(如参数收集)被限制在GPU子集内,使得集群扩展时通信延迟保持稳定。
分层通信策略
当单节点GPU内存无法容纳模型副本时,MiCS通过减少节点间通信参与GPU数量优化传输。采用并行化节点间通信,使单次通信仅涉及两个GPU交换半数数据,本地聚合后形成完整消息。以双节点四GPU为例,通信量因子从3/4降至1/2。
两跳梯度同步
通过将梯度累积限制在分区组内,直至最后微批次处理完毕才进行跨复制组同步。这种设计将同步开销分摊到多个微步骤,显著提升效率。实验显示,四微步训练中梯度同步效率提升显著。
性能验证结果
在p3dn.24xlarge实例集群的BERT模型测试中,MiCS实现近线性可扩展性(矩形框标注),相比DeepSpeed ZeRO三阶段优化提升2.82倍吞吐量。在1750亿参数模型训练中,单GPU达到169万亿次浮点运算(理论峰值54.2%),512 GPU集群扩展效率达99.4%。
技术价值
该方法通过智能分区策略、分层通信优化和梯度同步调度,突破大规模分布式训练瓶颈,为千亿级参数模型训练提供可行解决方案。相关代码即将开源,预计将大幅降低云平台大模型训练成本。