Amazon SageMaker HyperPod 新增自定义 Kubernetes 标签与污点支持,强化 GPU 资源调度管理

AWS 宣布 Amazon SageMaker HyperPod 现已支持自定义 Kubernetes 标签和污点。该功能允许用户在实例组级别通过 API 配置调度策略,以精确控制 AI 工作负载在 GPU 节点上的放置,防止系统 Pod 占用昂贵资源,并确保与自定义设备插件的兼容性。

Amazon SageMaker HyperPod 现已支持自定义 Kubernetes 标签和污点,使客户能够控制 Pod 调度并无缝集成到现有的 Kubernetes 基础设施中。在由 EKS 编排的 HyperPod 集群上部署 AI 工作负载的客户需要精确控制工作负载的放置位置,以防止系统 Pod 和非 AI 工作负载消耗昂贵的 GPU 资源,同时确保与 EFA 和 NVIDIA GPU 操作员等自定义设备插件的兼容性。此前,客户必须使用 kubectl 手动应用标签和污点,并在每次节点替换、扩展或修补操作后重新应用,这产生了大量的操作开销。

此功能允许您通过 CreateClusterUpdateCluster API 在实例组级别配置标签和污点,提供了一种在节点整个生命周期内定义和维护调度策略的托管方法。使用新的 KubernetesConfig 参数,您可以为每个实例组指定多达 50 个标签和 50 个污点。标签通过节点选择器实现资源组织和 Pod 定位,而污点则排斥没有匹配容忍度的 Pod,从而保护专用节点。例如,您可以将 NoSchedule 污点应用于 GPU 实例组,以确保只有具有明确容忍度的 AI 训练任务才能消耗高成本计算资源;或者添加自定义标签,使设备插件 Pod 能够正确调度。HyperPod 会在节点创建期间自动应用这些配置,并在替换、扩展和修补操作中保持它们,从而消除了手动干预并减少了操作开销。

此功能在提供 Amazon SageMaker HyperPod 的所有 AWS 区域均可用。要了解更多关于自定义标签和污点的信息,请参阅用户指南。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计