Amazon SageMaker HyperPod 推出无检查点训练,加速大规模AI模型训练

本文介绍了AWS为Amazon SageMaker HyperPod引入的新功能——无检查点训练。该技术能在大规模分布式训练集群发生故障时,自动更换问题节点并利用对等状态转移进行恢复,无需依赖传统的检查点重启,可将恢复时间从数小时缩短至数分钟,显著提升GPU利用率与训练效率。

Amazon SageMaker HyperPod 现已支持无检查点训练,这是一种新的基础模型训练能力,它减少了故障恢复对基于检查点的任务级重启的依赖。即使发生故障,无检查点训练也能保持前向训练动量,将恢复时间从数小时缩短到数分钟。这标志着对传统基于检查点的恢复方式的根本性转变。在传统方式中,故障需要暂停整个训练集群、手动诊断问题并从保存的检查点恢复,这个过程可能导致昂贵的AI加速器闲置数小时,给您的组织造成计算资源浪费。

无检查点训练通过在整个分布式集群中保持模型训练状态,从而改变了这一范式。它能在运行时自动替换故障的训练节点,并利用来自健康加速器的对等状态转移进行故障恢复。通过减少恢复期间对检查点的依赖,无检查点训练可以帮助您的组织节省AI加速器的闲置成本并加快训练时间。即使在更大的规模下,在拥有数千个AI加速器的集群上,Amazon SageMaker HyperPod 的无检查点训练也能实现95%以上的训练有效吞吐量。

SageMaker HyperPod 上的无检查点训练在所有当前提供 Amazon SageMaker HyperPod 的 AWS 区域均已可用。对于流行的公开可用模型(如 Llama 和 GPT OSS),您可以使用 HyperPod 提供的配方,在无需更改任何代码的情况下启用无检查点训练。对于自定义模型架构,您可以集成无检查点训练组件,只需对基于 PyTorch 的工作流进行最小限度的修改即可,这使得无论您的团队在分布式训练方面专业知识如何,都能使用这项技术。

要开始使用,请访问 Amazon SageMaker HyperPod 产品页面,并查看无检查点训练的 GitHub 页面以获取实施指南。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计