亚马逊 SageMaker HyperPod 现已支持自定义 Kubernetes 标签与污点功能,使客户能够控制 Pod 调度并与现有 Kubernetes 基础设施无缝集成。在使用 EKS 编排的 HyperPod 集群上部署 AI 工作负载的客户,需要对工作负载放置进行精确控制,以防止系统 Pod 和非 AI 工作负载消耗昂贵的 GPU 资源,同时确保与自定义设备插件(如 EFA 和 NVIDIA GPU 操作器)的兼容性。此前,客户必须使用 kubectl 手动应用标签和污点,并在每次节点更换、扩缩容或修补操作后重新应用,这带来了巨大的运维负担。
该功能允许您通过 CreateCluster 和 UpdateCluster API 在实例组级别配置标签和污点,提供了一种管理方法来定义和维护整个节点生命周期中的调度策略。使用新的 KubernetesConfig 参数,您可以为每个实例组指定最多 50 个标签和 50 个污点。标签通过节点选择器实现资源组织和 Pod 定向,而污点则排斥没有匹配容忍度的 Pod,以保护专用节点。例如,您可以对 GPU 实例组应用 NoSchedule 污点,确保只有具有显式容忍度的 AI 训练任务才能消耗高成本计算资源,或添加自定义标签以使设备插件 Pod 能够正确调度。HyperPod 在节点创建期间自动应用这些配置,并在更换、扩缩容和修补操作中保持它们,从而消除了手动干预并减少了运维负担。
此功能在提供 Amazon SageMaker HyperPod 的所有 AWS 区域均可用。要了解更多关于自定义标签和污点的信息,请参阅用户指南。