Amazon SageMaker HyperPod 推出无检查点训练，加速大规模AI模型训练

Amazon SageMaker HyperPod 现已支持无检查点训练，这是一种新的基础模型训练能力，它减少了故障恢复对基于检查点的任务级重启的依赖。即使发生故障，无检查点训练也能保持前向训练动量，将恢复时间从数小时缩短到数分钟。这标志着对传统基于检查点的恢复方式的根本性转变。在传统方式中，故障需要暂停整个训练集群、手动诊断问题并从保存的检查点恢复，这个过程可能导致昂贵的AI加速器闲置数小时，给您的组织造成计算资源浪费。

无检查点训练通过在整个分布式集群中保持模型训练状态，从而改变了这一范式。它能在运行时自动替换故障的训练节点，并利用来自健康加速器的对等状态转移进行故障恢复。通过减少恢复期间对检查点的依赖，无检查点训练可以帮助您的组织节省AI加速器的闲置成本并加快训练时间。即使在更大的规模下，在拥有数千个AI加速器的集群上，Amazon SageMaker HyperPod 的无检查点训练也能实现95%以上的训练有效吞吐量。

SageMaker HyperPod 上的无检查点训练在所有当前提供 Amazon SageMaker HyperPod 的 AWS 区域均已可用。对于流行的公开可用模型（如 Llama 和 GPT OSS），您可以使用 HyperPod 提供的配方，在无需更改任何代码的情况下启用无检查点训练。对于自定义模型架构，您可以集成无检查点训练组件，只需对基于 PyTorch 的工作流进行最小限度的修改即可，这使得无论您的团队在分布式训练方面专业知识如何，都能使用这项技术。

要开始使用，请访问 Amazon SageMaker HyperPod 产品页面，并查看无检查点训练的 GitHub 页面以获取实施指南。