InfiniteHBD：采用光路交换收发器构建LLM数据中心级高带宽域

扩展大语言模型（LLM）训练依赖于多维并行技术，其中高带宽域（HBD）对于张量并行（TP）和专家并行（EP）等通信密集型并行方式至关重要。然而，现有HBD架构在可扩展性、成本和容错性方面存在根本性限制：以交换机为中心的HBD（如NVL-72）导致扩展成本过高，而以GPU为中心的HBD（如TPUv3/Dojo）存在严重的故障传播问题。TPUv4等交换机-GPU混合HBD采取折中方案，但故障爆炸半径仍保持在立方体级别（例如64个TPU）。

提出InfiniteHBD——一种以收发器为中心的新型HBD架构，通过光路交换（OCS）在收发器级别统一连接与动态交换功能。通过在每个收发器中嵌入OCS，InfiniteHBD实现了可重构的点到多点连接，使拓扑能够自适应可变大小的环状结构。该设计具有以下特点：