InfiniteHBD:采用光路交换收发器构建LLM数据中心级高带宽域
扩展大语言模型(LLM)训练依赖于多维并行技术,其中高带宽域(HBD)对于张量并行(TP)和专家并行(EP)等通信密集型并行方式至关重要。然而,现有HBD架构在可扩展性、成本和容错性方面存在根本性限制:以交换机为中心的HBD(如NVL-72)导致扩展成本过高,而以GPU为中心的HBD(如TPUv3/Dojo)存在严重的故障传播问题。TPUv4等交换机-GPU混合HBD采取折中方案,但故障爆炸半径仍保持在立方体级别(例如64个TPU)。
提出InfiniteHBD——一种以收发器为中心的新型HBD架构,通过光路交换(OCS)在收发器级别统一连接与动态交换功能。通过在每个收发器中嵌入OCS,InfiniteHBD实现了可重构的点到多点连接,使拓扑能够自适应可变大小的环状结构。该设计具有以下特点:
- 实现数据中心级可扩展性且避免成本爆炸
- 通过将故障隔离到单个节点实现容错恢复
- 为无故障GPU提供全带宽利用率
核心技术创新包括:
- 基于硅光子(SiPh)的低成本光路交换收发器(OCSTrx)
- 与节点内/节点间通信协同设计的可重构k跳环状拓扑
- HBD-DCN编排算法,在最大化GPU利用率的同时最小化跨ToR数据中心网络流量
评估结果表明:
- 成本仅为NVL-72的31%
- GPU浪费率接近零(比NVL-72和TPUv4低一个数量级以上)
- 当节点故障率低于7%时跨ToR流量接近零
- 与某机构DGX(每节点8 GPU)相比,模型FLOPs利用率提升3.37倍