AI工作负载的云硬件诊断技术解析

本文探讨了云服务商如何为AI工作负载构建智能硬件诊断系统,包括遥测收集、风险评分和故障预测缓解等关键技术层,确保GPU服务器的可靠性和高可用性。

AI工作负载的云硬件诊断

随着AI技术的蓬勃发展,云数据中心中AI工作负载和AI支持硬件服务器的部署规模呈指数级增长。这种增长遍布全球多个地区的不同数据中心。为了支持这一增长并确保在各类云竞争对手(如Azure、AWS和GCP)中的领先地位,云服务商开始构建专门的高性能计算服务器群。AI工作负载执行大量数据处理、训练和模型推理,需要不同于传统通用计算服务器的特殊硬件。

因此,所有云服务提供商都在大力投资基于GPU、TPU和NPU的服务器,这些服务器能有效承载AI工作负载。这些服务器大多属于购买模式类型,云服务提供商依赖“其他设备制造商”(OEM)进行硬件诊断和维护。这种依赖性给云服务提供商带来了很多痛苦,因为维修SLA不确定且昂贵,影响了服务器群的可用性。

因此,云提供商正在从简单的购买模式转向制造模式(从OEM设计的服务器维护转向内部服务器维护)。这种商业模式的转变导致了数据中心服务模式从依赖OEM向自主维护过渡。为了支持这种自给自足和AI硬件群的成长,每个云服务提供商都旨在降低服务成本,并构建快速、远程、准确、自动化和经济的硬件诊断系统。

为什么硬件诊断对AI至关重要

AI工作负载具有独特性,需要可靠稳定的并行处理和计算密集型硬件。然而,硬件组件经常发生故障,有时甚至毫无预警。单个性能下降的GPU或内存故障可能会破坏数小时的训练或导致实时推理端点崩溃。一些影响AI工作负载的常见硬件相关问题包括:

  • GPU内存错误(ECC故障、托盘问题)
  • GPU热节流
  • GPU InfiniBand故障
  • CPU IErrs和不可纠正错误

因此,为了满足客户对高可用性和不间断服务的需求,云提供商需要准确的硬件诊断来精确定位故障组件。

AI硬件的硬件诊断引擎

AI硬件的硬件诊断引擎将分为以下组件:

遥测收集层

该层专注于收集关于各种组件的实时硬件遥测数据:

  • GPU驱动程序
  • 固件版本和错误日志(BMC、BIOS)
  • 节点上数据(温度、利用率、功耗)
  • 操作系统级计数器(oom-kill、系统崩溃、dmesg日志)

该平台将使用基于云的代理来收集硬件遥测数据并发布到集中位置。

硬件风险评分层

该层被诊断系统用于基于硬件故障模式锁定硬件风险评分。诊断引擎将采样错误,例如随时间变化的ECC错误率、跨工作负载的热余量、与基线相比的GPU性能下降、与黄金配置相比的固件不匹配以及每个VM分配的硬件重试计数。

示例逻辑:节点健康评分 = 加权和(ECC率、热节流、固件漂移、分配重试)

风险评分将被诊断引擎用于预测和缓解硬件故障。

预测、缓解和修复层

诊断引擎将使用来自各种硬件组件的遥测数据和风险评级分数来采取各种缓解和修复行动。

硬件故障预测

  • 发生在服务器处于LIVE状态且运行着LIVE客户工作负载时。
  • 硬件诊断引擎将从遥测层收集硬件健康属性(即硬件遥测数据),并与其他云平台级机器学习服务协作以预测硬件故障。
  • 硬件诊断还将执行预测性故障分析,基于风险评级分数预测即将发生的硬件故障,并采取主动行动将AI工作负载迁移到健康的服务器上,而不中断工作负载。

硬件故障缓解

  • 发生在节点处于LIVE状态且运行着LIVE客户工作负载时。
  • 如果硬件故障预测不可行,则硬件将尝试缓解硬件故障以确保硬件服务的连续性。当前使用的一些缓解行动包括磁盘镜像、内存页离线、错误检测和纠正以及在故障时自动重置GPU驱动程序。

硬件故障修复

  • 发生在节点处于OFFLINE状态且客户工作负载已撤离时。
  • 如果硬件故障缓解不可行,则硬件诊断将基于遥测层收集的设备遥测数据有效归因故障。一旦故障归因完成,硬件故障将在数据中心进行服务和组件修复。

诊断、指标和AI硬件群范围洞察

构建报告仪表板以暴露GPU/节点健康指标:

  • 按GPU SKU、区域或区域的故障率趋势
  • 重复故障节点
  • 热或利用率异常的热图
  • 导致模型训练故障的顶级SKU和主机
  • 相关的工作负载影响分析(例如,作业重试趋势、延迟)

结论

构建强大可靠的诊断系统将有助于基准化AI硬件健康状况,并了解GPU SKU和主机模型的硬件健康状况。我们可以将硬件故障事件与AI模型性能下降相关联。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计