Amazon SageMaker HyperPod 新增自定义 Kubernetes 标签与污点支持

本文介绍 Amazon SageMaker HyperPod 新增的自定义 Kubernetes 标签与污点功能,该功能允许用户在实例组级别配置调度策略,实现 GPU 资源的精确管控,并自动保持配置在节点全生命周期中生效。

亚马逊 SageMaker HyperPod 现已支持自定义 Kubernetes 标签与污点功能,使客户能够控制 Pod 调度并与现有 Kubernetes 基础设施无缝集成。在使用 EKS 编排的 HyperPod 集群上部署 AI 工作负载的客户,需要对工作负载放置进行精确控制,以防止系统 Pod 和非 AI 工作负载消耗昂贵的 GPU 资源,同时确保与自定义设备插件(如 EFA 和 NVIDIA GPU 操作器)的兼容性。此前,客户必须使用 kubectl 手动应用标签和污点,并在每次节点更换、扩缩容或修补操作后重新应用,这带来了巨大的运维负担。

该功能允许您通过 CreateCluster 和 UpdateCluster API 在实例组级别配置标签和污点,提供了一种管理方法来定义和维护整个节点生命周期中的调度策略。使用新的 KubernetesConfig 参数,您可以为每个实例组指定最多 50 个标签和 50 个污点。标签通过节点选择器实现资源组织和 Pod 定向,而污点则排斥没有匹配容忍度的 Pod,以保护专用节点。例如,您可以对 GPU 实例组应用 NoSchedule 污点,确保只有具有显式容忍度的 AI 训练任务才能消耗高成本计算资源,或添加自定义标签以使设备插件 Pod 能够正确调度。HyperPod 在节点创建期间自动应用这些配置,并在更换、扩缩容和修补操作中保持它们,从而消除了手动干预并减少了运维负担。

此功能在提供 Amazon SageMaker HyperPod 的所有 AWS 区域均可用。要了解更多关于自定义标签和污点的信息,请参阅用户指南。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计