今天,我们宣布在Amazon SageMaker HyperPod中推出两项新的AI模型训练功能:无检查点训练,这是一种通过启用点对点状态恢复来减少对传统基于检查点恢复需求的方法;以及弹性训练,它使AI工作负载能够根据资源可用性自动扩展。
无检查点训练 – 无检查点训练消除了中断性的检查点-重启循环,即使在发生故障时也能保持向前的训练动量,将恢复时间从数小时缩短至数分钟。从而加速您的AI模型开发,从开发时间线中节省天数,并充满信心地将训练工作流扩展到数千个AI加速器。 弹性训练 – 弹性训练最大化集群利用率,因为训练工作负载会自动扩展以使用可用的空闲容量,并在更高优先级的工作负载(如推理量激增)需要资源时收缩以释放资源。每周可节省数小时的工程时间,这些时间原本用于根据计算可用性重新配置训练任务。
这些新的训练技术意味着您的团队可以完全专注于提升模型性能,最终让您的AI模型更快地上市,而无需花费时间管理训练基础设施。通过消除传统的检查点依赖并充分利用可用容量,您可以显著缩短模型训练完成时间。
无检查点训练:工作原理
传统的基于检查点的恢复具有以下顺序任务阶段:1) 任务终止和重启,2) 进程发现和网络设置,3) 检查点检索,4) 数据加载器初始化,以及5) 训练循环恢复。当故障发生时,每个阶段都可能成为瓶颈,在自我管理的训练集群上,训练恢复可能需要长达一小时。整个集群必须等待每个阶段完成后才能恢复训练。这可能导致整个训练集群在恢复操作期间闲置,从而增加成本并延长上市时间。
无检查点训练通过在整个训练集群中保持持续的模型状态保存,完全消除了这一瓶颈。当发生故障时,系统通过使用健康的节点即时恢复,避免了需要重启整个任务的基于检查点的恢复。因此,无检查点训练能够在几分钟内实现故障恢复。
无检查点训练设计为可增量采用,并基于四个协同工作的核心组件构建:1) 集合通信初始化优化,2) 支持缓存的内存映射数据加载,3) 进程内恢复,以及4) 无检查点的点对点状态复制。这些组件通过用于启动任务的HyperPod训练操作符进行编排。每个组件优化了恢复过程中的特定步骤,它们共同实现了在几分钟内自动检测和恢复基础设施故障,无需人工干预,即使在数千个AI加速器上也是如此。您可以在训练扩展时逐步启用这些功能。
最新的Amazon Nova模型就是在数万个加速器上使用这项技术进行训练的。此外,基于对16个GPU到超过2000个GPU的集群规模的内部研究,无检查点训练在恢复时间上展现了显著改进,与传统基于检查点的恢复相比,停机时间减少了80%以上。
要了解更多信息,请访问Amazon SageMaker AI开发者指南中的HyperPod无检查点训练。
弹性训练:工作原理
在运行不同类型现代AI工作负载的集群上,加速器可用性可能会在全天持续变化,因为短期训练运行完成、推理激增发生和消退,或者资源从已完成的实验中释放出来。尽管AI加速器的可用性是动态变化的,但传统的训练工作负载仍锁定在其初始的计算分配中,无法在没有人工干预的情况下利用空闲的加速器。这种刚性导致宝贵的GPU容量未被使用,并阻止组织最大化其基础设施投资。
弹性训练改变了训练工作负载与集群资源的交互方式。训练任务可以自动扩展以利用可用的加速器,并在其他地方需要资源时优雅地收缩,同时保持训练质量。
工作负载弹性通过HyperPod训练操作符启用,该操作符通过与Kubernetes控制平面和资源调度器的集成来编排扩展决策。它通过三个主要渠道持续监控集群状态:Pod生命周期事件、节点可用性变化和资源调度器优先级信号。这种全面的监控能够近乎即时地检测扩展机会,无论是来自新可用资源的请求还是来自更高优先级工作负载的请求。
扩展机制依赖于添加和删除数据并行副本。当额外的计算资源可用时,新的数据并行副本加入训练任务,从而加速吞吐量。相反,在缩减事件期间(例如,当更高优先级的工作负载请求资源时),系统通过删除副本来缩减规模,而不是终止整个任务,允许训练以降低的容量继续进行。
在不同的规模下,系统会保持全局批处理大小并调整学习率,防止模型收敛受到不利影响。这使得工作负载能够动态扩展或缩减以利用可用的AI加速器,无需任何人工干预。
您可以通过针对公开可用基础模型(FMs)(包括Llama和GPT-OSS)的HyperPod配方开始弹性训练。此外,您可以修改您的PyTorch训练脚本以添加弹性事件处理器,从而使任务能够动态扩展。
要了解更多信息,请访问Amazon SageMaker AI开发者指南中的HyperPod弹性训练。要开始使用,请在AWS GitHub仓库中找到可用的HyperPod配方。
现已可用
这两项功能在Amazon SageMaker HyperPod可用的所有区域均已提供。您无需额外费用即可使用这些训练技术。要了解更多信息,请访问SageMaker HyperPod产品页面和SageMaker AI定价页面。
请尝试并发送反馈至AWS re:Post for SageMaker或通过您通常的AWS支持联系人。
— Channy