Amazon SageMaker HyperPod 现已支持无检查点训练
亚马逊 SageMaker HyperPod 现已支持无检查点训练,这是一种新的基础模型训练能力,可减少基于检查点的作业级重启对于故障恢复的需求。无检查点训练即使在发生故障时也能保持训练的前进势头,将恢复时间从数小时缩短至数分钟。这代表了从传统基于检查点的恢复方式的根本性转变。在传统方式中,故障需要暂停整个训练集群,手动诊断问题,并从保存的检查点恢复,这个过程可能导致昂贵的 AI 加速器闲置数小时,给组织带来计算资源浪费。
无检查点训练通过在整个分布式集群中保存模型训练状态,自动即时更换有故障的训练节点,并使用来自健康加速器的点对点状态传输进行故障恢复,从而改变了这一范式。通过减少恢复过程中的检查点依赖,无检查点训练可以帮助您的组织节省 AI 加速器闲置成本并加速训练进程。即使在更大规模下,在 Amazon SageMaker HyperPod 上进行无检查点训练,也能在拥有数千个 AI 加速器的集群规模上实现高达 95% 以上的训练有效吞吐率。
SageMaker HyperPod 的无检查点训练功能已在当前提供 Amazon SageMaker HyperPod 的所有 AWS 区域推出。您可以使用 HyperPod 针对 Llama 和 GPT OSS 等热门公开模型的配方,在无需更改任何代码的情况下启用无检查点训练。对于自定义模型架构,您可以将无检查点训练组件集成到基于 PyTorch 的工作流中,只需进行最少的修改,无论您的团队分布式训练专业知识水平如何,都能轻松使用该功能。
如需开始使用,请访问 Amazon SageMaker HyperPod 产品页面,并查看无检查点训练的 GitHub 页面以获取实施指南。