AI网络架构核心揭秘——2025网络技术峰会回顾

本文深入探讨AI时代网络基础设施的关键作用,涵盖千兆瓦级集群建设、RoCE以太网架构演进、混合专家模型网络需求,以及网络与AI堆栈的协同设计挑战,揭示未来AI网络技术发展趋势。

网络:AI的核心——2025网络技术峰会回顾

AI无处不在,作为网络工程师,我们正身处其中:为AI构建网络基础设施。今年在我们有史以来规模最大的@Scale网络峰会上,来自Meta、ByteDance、Google、Microsoft、Oracle、AMD、Broadcom、Cisco和NVIDIA的工程师齐聚一堂,分享我们在AI网络架构设计、运营和调试方面的最新经验。网络在推动大规模AI进步中扮演的重要角色已不言而喻。展望未来,我们正通过网络技术推动并定义AI的未来。

背景设定:快速变化与演进

鉴于AI持续驱动网络和通用基础设施的创新,我们再次将@Scale网络峰会的焦点放在AI网络上,分享该领域的新见解和进展。过去一年中,我们观察到两个重要趋势:

AI基础设施站上中心舞台 整个行业里,AI公司正规划未来数年投入数千亿美元的基础设施建设。在Meta,这意味着投资建设千兆瓦级集群(如Prometheus和Hyperion),提供清洁可再生能源,并铺设全球最大的跨洋光缆系统,确保全球数十亿人能够享受所有这些AI创新。短期内,我们甚至扩展了“弹簧结构”建设组合,以最快速度上线容量。

模型与主要AI工作负载快速演进 过去几年我们重点关注大规模基础训练的需求。在不到两年内,Meta基于以太网/RoCE的集群从4K扩展到24K再到129K GPU,每个跨越都面临高性能和高可靠性的新挑战。最近9-12个月,我们见证了工作负载的快速扩展,包括混合专家模型、推理模型、强化学习、后期训练、合成数据生成、分布式推理等。这些都具有不同的网络需求,都成为我们当前面临的挑战。

网络在AI中的角色

在此背景下,网络的重要性愈发清晰。

网络即计算机 在快速变化的AI工作负载与大规模物理基础设施建设之间,网络扮演着接口角色,尽可能向工作负载抽象底层基础设施。从模型视角看,基础设施应像一块巨型GPU,而网络是实现这种抽象的关键。

与AI堆栈协同设计网络 实现这一抽象目标需要应对诸多挑战:不同距离和带宽(特别是在纵向扩展和横向扩展领域),以及跨不同加速器、网卡和架构的硬件多样性。这对网络而言是全栈/端到端问题,需要我们运用在网卡、路由和拥塞控制方面的所有经验,并与基于GPU的堆栈进行紧密调优。

可靠性是关键 我们不仅要提供模型期望的性能和易用性,还必须以高可靠性运营这些基础设施,无缝发现故障并快速响应。

创新与可选性 展望未来,我们需要持续创新以保持领先并提供可选性,因为我们预计上层的模型/工作负载和下层的其他基础设施都将持续变化。我们希望构建一个融合高性能计算能力与开放可扩展分布式系统原则的网络堆栈,确保我们为未来任何变化做好准备。

2025网络峰会更多内容

请访问@Scale YouTube频道观看今年网络峰会的所有演讲。Meta持续组织所有@Scale活动(系统与可靠性、AI与数据,以及即将在十月举行的产品峰会),以便我们的社区能够分享正在应对的创新与挑战,并相互学习。

我们的演讲包含现场问答环节,聚焦两大主题:

  • 底层物理网络基础设施演讲:交换机拓扑与控制平面、网卡与主机网络、可扩展运营/高可靠性
  • 高层模型导向演讲:并行设计、作业级可调试性、大规模预训练扩展,以及强化学习、混合专家和推理中的新用例处理

从AI和网络未来发展的视角,我们安排了Meta和微软的主题演讲,以及由主要GPU和网络ASIC供应商参与的厂商小组讨论。

我们再次感谢来自Meta、ByteDance、Google、Microsoft、Oracle、AMD、Broadcom、Cisco和NVIDIA的所有参与者,他们与我们一起向社区分享了最新经验。我们期待在2026年的下一届@Scale网络峰会上,见证网络与AI创新的又一年快速发展!

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计