华为发布互联技术解决大规模AI基础设施瓶颈
在Connect 2025大会开幕主题演讲中,华为轮值董事长徐直军强调,计算能力现在是并将继续是人工智能在分布式业务基础设施中持续部署的关键——特别是在中国。华为借此大会推出了一系列计算机 pod 和集群,以及互联技术,以解决大规模AI计算基础设施中潜在的数据瓶颈问题。
突破性SuperPoD互联技术
在题为《突破性SuperPoD互联:引领AI基础设施新范式》的主题演讲中,徐直军强调,华为的目标是通过构建SuperPoD和SuperCluster,可持续地满足长期计算需求。SuperPoD被定义为一个单一的逻辑机器,由多个物理机器组成,可以作为一个整体进行学习、思考和推理。
徐直军发布了公司最新的SuperPoD产品:
- Atlas 950 SuperPoD:配备8,192个昇腾神经网络处理器(NPU)
- Atlas 960 SuperPoD:配备15,488个昇腾NPU
这两款SuperPoD据称在多个关键指标上提供"行业领先的性能",包括NPU数量、总计算能力、内存容量和互联带宽。华为坚持认为,其SuperPoD目前是世界上最强大的,并且将在"未来几年"保持这一地位。
大规模计算集群
徐直军还宣布了:
- Atlas 950 SuperCluster:配备超过50万个昇腾NPU
- Atlas 960 SuperCluster:配备超过100万个昇腾NPU
这些是由多个华为SuperPoD组成的大规模计算集群,也有望在市场上超越所有其他计算集群。
徐直军断言,凭借世界上最强大的SuperPoD和SuperCluster,华为有能力为当前和未来AI的持续快速发展提供充足的计算能力。
通用计算SuperPoD
徐直军继续介绍了TaiShan 950 SuperPoD,这是华为描述的世界首个通用计算SuperPoD。该平台与华为的分布式GaussDB相结合,旨在作为大型机、中端计算机以及Exadata数据库服务器的可行替代方案。
互联技术挑战与突破
即使在最强大的SuperPoD环境中,高计算环境仍存在许多网络挑战,即现有电缆技术(包括光缆和铜缆)在长距离连接大量芯片和SuperPoD同时保持可靠、高速和低延迟连接方面的物理限制。这可能成为大规模AI计算基础设施的主要瓶颈。
为解决这些挑战,华为表示已磨练其连接专业知识超过三十年。徐直军宣布了UnifiedBus,这是用于SuperPoD的"突破性"互联协议。
“由UnifiedBus驱动的SuperPoD和SuperCluster是我们对当前和未来计算需求激增的回应,“他表示,“我们的目标是不断推动AI的进步,创造更大价值。”
徐直军还发布了UnifiedBus 2.0的技术规范,希望行业合作伙伴采用该协议开发更多基于UnifiedBus的产品和组件,共同创建开放的UnifiedBus生态系统。