从通用硬件到专用计算
过去几十年间,通过基于近乎相同的商用服务器的横向扩展架构,计算能力实现了民主化。这种统一性允许灵活的工作负载放置和高效的资源利用。但生成式AI严重依赖对海量数据集的可预测数学运算,正在逆转这一趋势。
目前正出现向专用硬件(包括ASIC、GPU和张量处理单元TPU)的决定性转变,这些硬件相比通用CPU在每美元和每瓦特性能上带来数量级提升。这种针对特定领域优化的计算单元扩散,对推动AI持续快速发展至关重要。
超越以太网:专用互联的兴起
这些专用系统通常需要"全对全"通信,具有太比特每秒带宽和接近本地内存速度的纳秒级延迟。当前主要基于商用以太网交换机和TCP/IP协议的网络无法满足这些极端需求。
因此,为了在专用加速器的大规模集群上扩展生成式AI工作负载,出现了专用互联技术(如TPU的ICI和GPU的NVLink)。这些专用网络优先考虑直接内存到内存传输,并使用专用硬件加速处理器间的信息共享,有效绕过传统分层网络栈的开销。
这种向紧密集成、以计算为中心的网络转变,对于克服通信瓶颈和高效扩展下一代AI至关重要。
突破内存墙限制
几十年来,计算性能的增长速度一直超过内存带宽的增长。虽然缓存和堆叠SRAM等技术部分缓解了这个问题,但AI的数据密集型特性只会加剧这一问题。
为满足日益强大的计算单元对数据的贪婪需求,出现了高带宽内存(HBM),将DRAM直接堆叠在处理器封装上以提高带宽并降低延迟。然而,即使HBM也面临基本限制:物理芯片周边限制了总数据流,以太比特速度移动海量数据集会产生巨大的能源限制。
这些限制凸显了对更高带宽连接的迫切需求,并强调了在处理和内存架构方面取得突破的紧迫性。没有这些创新,强大的计算资源将因等待数据而闲置,极大地限制效率和规模。
从服务器农场到高密度系统
当今先进的机器学习模型通常依赖在数万到数十万个相同计算元素上精心编排的计算,消耗巨大功率。这种紧密耦合和微秒级的细粒度同步提出了新要求。与接受异构性的系统不同,ML计算需要同构元素;混合不同代际会拖累更快单元的速度。通信路径也必须预先规划且高效,因为单个元素的延迟会阻塞整个进程。
这些对协调和功率的极端需求正在推动对前所未有计算密度的需求。最小化处理器之间的物理距离对于降低延迟和功耗至关重要,为新型超密集AI系统铺平道路。
这种对极致密度和紧密协调计算的需求从根本上改变了基础设施的最佳设计,需要重新思考物理布局和动态电源管理,以防止性能瓶颈并最大化效率。
故障容忍的新方法
传统的故障容忍依赖松散连接系统间的冗余来实现高正常运行时间。ML计算需要不同的方法。
首先,计算的庞大规模使得过度配置成本过高。其次,模型训练是一个紧密同步的过程,单个故障可能波及数千个处理器。最后,先进的ML硬件通常推向当前技术的边界,可能导致更高的故障率。
相反,新兴策略涉及频繁检查点(保存计算状态),结合实时监控、快速分配备用资源和快速重启。底层硬件和网络设计必须支持快速故障检测和无缝组件更换以保持性能。
更可持续的能源方法
当前和未来,电力供应是扩展AI计算的关键瓶颈。虽然传统系统设计专注于每芯片的最大性能,但我们必须转向专注于端到端设计,关注每瓦特的大规模交付性能。这种方法至关重要,因为它考虑了所有系统组件——计算、网络、内存、电力输送、冷却和故障容忍——无缝协作以维持性能。单独优化组件会严重限制整体系统效率。
随着我们追求更高性能,单个芯片需要更多功率,通常超过传统风冷数据中心的冷却能力。这需要转向更耗能但最终更高效的液体冷却解决方案,并从根本上重新设计数据中心冷却基础设施。
除了冷却,传统的冗余电源(如双公用事业馈电和柴油发电机)会产生巨大的财务成本并减缓容量交付。相反,我们必须结合多种电源和千兆瓦级存储,由实时微电网控制器管理。通过利用AI工作负载灵活性和地理分布,我们可以提供更多能力,而无需仅每年使用几小时的昂贵备份系统。
这种不断发展的电力模型能够实时响应电力可用性——从在短缺期间关闭计算到对能够容忍性能降低的工作负载采用频率调整等先进技术。所有这些都需要当前无法提供的实时遥测和执行能力。
安全与隐私:内置而非外挂
互联网时代的一个重要教训是,安全和隐私不能有效地附加到现有架构上。恶意行为者的威胁只会变得更加复杂,需要将用户数据和专有知识产权的保护构建到ML基础设施的结构中。一个重要观察是,AI最终将增强攻击者的能力。这反过来意味着我们必须确保AI同时增强我们的防御能力。
这包括端到端数据加密、具有可验证访问日志的强大数据溯源跟踪、硬件强制的安全边界以保护敏感计算以及复杂的密钥管理系统。从一开始就集成这些保护措施对于保护用户和维护他们的信任至关重要。实时监控可能达到每秒 petabits 的遥测和日志记录,将是识别和消除大海捞针式攻击向量(包括来自内部威胁的向量)的关键。
速度作为战略要务
硬件升级的节奏已经发生巨大变化。与传统基础设施逐步机架式演进不同,部署ML超级计算机需要根本不同的方法。这是因为ML计算不容易在异构部署上运行;计算代码、算法和编译器必须专门针对每个新硬件代际进行调整,以充分利用其能力。创新速度也是前所未有的,新硬件通常每年提供两倍或更多的性能提升。
因此,现在需要大规模同时部署同构硬件,通常跨越整个数据中心,而不是逐步升级。随着年度硬件更新带来整数倍的性能改进,快速建立这些庞大AI引擎的能力至关重要。
目标必须是压缩从设计到完全运营10万以上芯片部署的时间表,实现效率改进同时支持算法突破。这需要每个阶段的根本性加速和自动化,要求对这些基础设施采用类似制造的模式。从架构到监控和修复,每个步骤都必须简化和自动化,以在前所未有的规模上利用每个硬件代际。
应对时刻:下一代AI基础设施的集体努力
生成式AI的兴起不仅标志着进化,更是一场需要彻底重新构想我们计算基础设施的革命。前方的挑战——在专用硬件、互联网络和可持续运营方面——是巨大的,但它将实现的AI变革潜力同样巨大。
很容易看出,我们最终的计算基础设施在未来几年内将变得无法识别,这意味着我们不能简单地改进已经设计的蓝图。相反,我们必须从研究到行业集体努力,从第一性原理重新审视AI计算的要求,为底层全球基础设施构建新蓝图。这反过来将在从医学到教育再到商业的各个领域带来根本性的新能力,以前所未有的规模和效率。