光路交换构建无限带宽LLM数据中心技术

本文提出InfiniteHBD新型高带宽域架构,通过光路交换收发器实现数据中心级可扩展性,显著降低故障传播风险并提升带宽利用率,相比现有方案成本降低69%且GPU浪费率接近零。

InfiniteHBD:采用光路交换收发器构建LLM数据中心级高带宽域

扩展大语言模型(LLM)训练依赖于多维并行技术,其中高带宽域(HBD)对于张量并行(TP)和专家并行(EP)等通信密集型并行方式至关重要。然而,现有HBD架构在可扩展性、成本和容错性方面存在根本性限制:以交换机为中心的HBD(如NVL-72)导致扩展成本过高,而以GPU为中心的HBD(如TPUv3/Dojo)存在严重的故障传播问题。TPUv4等交换机-GPU混合HBD采取折中方案,但故障爆炸半径仍保持在立方体级别(例如64个TPU)。

提出InfiniteHBD——一种以收发器为中心的新型HBD架构,通过光路交换(OCS)在收发器级别统一连接与动态交换功能。通过在每个收发器中嵌入OCS,InfiniteHBD实现了可重构的点到多点连接,使拓扑能够自适应可变大小的环状结构。该设计具有以下特点:

  1. 实现数据中心级可扩展性且避免成本爆炸
  2. 通过将故障隔离到单个节点实现容错恢复
  3. 为无故障GPU提供全带宽利用率

核心技术创新包括:

  • 基于硅光子(SiPh)的低成本光路交换收发器(OCSTrx)
  • 与节点内/节点间通信协同设计的可重构k跳环状拓扑
  • HBD-DCN编排算法,在最大化GPU利用率的同时最小化跨ToR数据中心网络流量

评估结果表明:

  • 成本仅为NVL-72的31%
  • GPU浪费率接近零(比NVL-72和TPUv4低一个数量级以上)
  • 当节点故障率低于7%时跨ToR流量接近零
  • 与某机构DGX(每节点8 GPU)相比,模型FLOPs利用率提升3.37倍
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计