Amazon SageMaker HyperPod 现已支持自定义 Kubernetes 标签和污点,使客户能够控制 Pod 调度并无缝集成到现有的 Kubernetes 基础设施中。在由 EKS 编排的 HyperPod 集群上部署 AI 工作负载的客户需要精确控制工作负载的放置位置,以防止系统 Pod 和非 AI 工作负载消耗昂贵的 GPU 资源,同时确保与 EFA 和 NVIDIA GPU 操作员等自定义设备插件的兼容性。此前,客户必须使用 kubectl 手动应用标签和污点,并在每次节点替换、扩展或修补操作后重新应用,这产生了大量的操作开销。
此功能允许您通过 CreateCluster 和 UpdateCluster API 在实例组级别配置标签和污点,提供了一种在节点整个生命周期内定义和维护调度策略的托管方法。使用新的 KubernetesConfig 参数,您可以为每个实例组指定多达 50 个标签和 50 个污点。标签通过节点选择器实现资源组织和 Pod 定位,而污点则排斥没有匹配容忍度的 Pod,从而保护专用节点。例如,您可以将 NoSchedule 污点应用于 GPU 实例组,以确保只有具有明确容忍度的 AI 训练任务才能消耗高成本计算资源;或者添加自定义标签,使设备插件 Pod 能够正确调度。HyperPod 会在节点创建期间自动应用这些配置,并在替换、扩展和修补操作中保持它们,从而消除了手动干预并减少了操作开销。
此功能在提供 Amazon SageMaker HyperPod 的所有 AWS 区域均可用。要了解更多关于自定义标签和污点的信息,请参阅用户指南。