AWS推出定制IRHX冷却技术,专为NVIDIA GPU集群打造
亚马逊AWS推出了专为NVIDIA最新GPU设计的专利冷却系统——行级热交换器(IRHX),以应对如NVIDIA GB200 NVL72等硬件日益增长的功耗和散热需求。
AWS评估了现有液冷解决方案,但发现它们无法满足公司需求。AWS计算与机器学习服务副总裁Dave Brown在YouTube演示中表示:“这些方案会占用过多数据中心地面空间,仍需对数据中心进行重大改造,或大幅增加用水量。虽然某些方案可能适用于其他供应商的小规模部署,但远远无法满足我们的液冷容量需求。”
IRHX系统由泵送单元、配水柜和风机盘管组成。液体通过AWS与NVIDIA共同设计的冷板冷却芯片,然后循环回IRHX进行冷却和释放。Brown强调:“使用IRHX,我们无需围绕机架重新设计数据中心。”
该系统支持AWS最强大的EC2实例P6e UltraServer,包含GB200 NVL72。这种机架级设置使72个Blackwell GPU能够作为一个整体协同工作。Brown表示,GB200 NVL72"使72个NVIDIA Blackwell GPU能够充当一个巨型GPU"。
亚马逊此前已开发定制硬件,包括芯片和网络系统。IRHX将这一策略延伸至冷却领域,使AWS能够在不重新设计设施的情况下部署新GPU机架。公司表示该系统符合现有机架尺寸和基础设施,可在全球数据中心扩展。
虽然IRHX目前与NVIDIA基于Blackwell的系统配对,但如果亚马逊自有Graviton芯片的冷却需求增加,很可能也会采用该技术。目前,该系统正为需要规模和速度的AI工作负载提供支持。