G4虚拟机P2P架构显著提升多GPU工作负载性能

本文深入解析Google Cloud G4虚拟机如何通过定制化PCIe P2P架构优化多GPU通信性能,实现AI推理吞吐量提升168%和延迟降低41%,详细介绍其技术实现原理和实际应用场景。

G4虚拟机的P2P架构提升多GPU工作负载性能

今天,我们宣布基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的G4虚拟机系列正式全面上市。得益于仅在Google Cloud中提供的独特平台优化,G4虚拟机在从少于300亿到超过1000亿参数的各种模型推理和微调方面,提供了所有商用NVIDIA RTX PRO 6000 Blackwell GPU产品中的最佳性能。

集体通信性能的重要性

大型语言模型(LLM)的规模差异很大,按其参数数量可分为:小型(约70亿)、中型(约700亿)和大型(约3500亿以上)。LLM通常超过单个GPU的内存容量,包括具有96GB GDDR7内存的NVIDIA RTX PRO 6000 Blackwell。常见的解决方案是使用张量并行(TP),它通过将各个模型层分布到多个GPU上来工作。这涉及划分层的权重矩阵,允许每个GPU并行执行部分计算。然而,随后需要使用All-Gather或All-Reduce等集体通信操作组合这些部分结果,这会带来显著的性能瓶颈。

G4系列GPU虚拟机采用仅PCIe互连。我们利用广泛的基础设施专业知识开发了这种支持点对点(P2P)通信的高性能软件定义PCIe架构。关键的是,G4的平台级P2P优化显著加速了需要多GPU扩展的工作负载的集体通信,从而显著提升了LLM的推理和微调性能。

G4如何加速多GPU性能

多GPU G4虚拟机形态通过定制硬件和软件的结合获得了显著增强的PCIe P2P能力。这一进步直接优化了集体通信,包括用于管理GPU数据交换的All-to-All、All-Reduce和All-Gather集合操作。结果是形成了一个低延迟数据路径,为多GPU推理和微调等关键工作负载提供了显著的性能提升。

实际上,在所有主要集体操作中,增强的G4 P2P能力提供了高达2.2倍的加速,而无需对代码或工作负载进行任何更改。

G4上P2P带来的推理性能提升

在G4实例上,增强的点对点通信直接提升了多GPU工作负载性能,特别是对于使用vLLM的张量并行推理,吞吐量提高了高达168%,令牌间延迟(ITL)降低了高达41%。

我们在使用张量并行进行模型服务时观察到这些改进,特别是与标准的非P2P产品相比。同时,G4与软件定义PCIe和P2P创新相结合,显著提高了推理吞吐量并降低了延迟,使您能够根据业务需求优化推理部署。

吞吐量还是速度:G4 P2P让您选择

G4虚拟机上的平台级优化直接转化为灵活而强大的竞争优势。对于用户体验至关重要的交互式生成式AI应用,G4的P2P技术使令牌间延迟(生成响应各部分之间的关键延迟)降低了高达41%。这带来了明显更快速和更响应的最终用户体验,提高了他们对您的AI应用的满意度。

或者,对于原始吞吐量是优先考虑的工作负载,例如批量推理,带有P2P的G4使客户能够比同类产品多服务高达168%的请求。这意味着您可以增加每个模型实例服务的用户数量,或者显著提高AI应用的响应能力。无论您关注的是延迟敏感的交互还是高容量吞吐量,与市场上其他NVIDIA RTX PRO 6000产品相比,G4都提供了卓越的投资回报。

使用G4和GKE Inference Gateway进一步扩展

虽然P2P优化了单个模型副本的性能,但要满足生产需求通常需要多个副本。这正是GKE Inference Gateway真正发挥作用的地方。它充当模型的智能流量管理器,使用前缀缓存感知路由和自定义调度等高级功能,以最大化整个部署的吞吐量并大幅降低延迟。

通过将G4 P2P的垂直扩展与Inference Gateway的水平扩展相结合,您可以构建一个端到端的服务解决方案,对于要求最苛刻的生成式AI应用来说,既具有卓越性能又具有成本效益。例如,您可以使用G4的P2P高效运行2-GPU Llama-3.1-70B模型副本,吞吐量提高66%,然后使用GKE Inference Gateway智能管理和自动扩展多个此类副本以满足全球用户需求。

G4 P2P支持的虚拟机形态

NVIDIA RTX PRO 6000 Blackwell的点对点功能可在以下多GPU G4虚拟机形态中使用:

机器类型 GPU数量 点对点 GPU内存(GB) vCPU数量 主机内存(GB) 本地SSD(GB)
g4-standard-96 2 192 96 360 3,000
g4-standard-192 4 384 192 720 6,000
g4-standard-384 8 768 384 1,440 12,000

对于少于8个GPU的虚拟机形态,我们的软件定义PCIe架构确保分配给同一物理机上不同虚拟机的GPU之间的路径隔离。PCIe路径在虚拟机创建时动态创建,并依赖于虚拟机形态,确保在平台堆栈的多个级别上进行隔离,以防止未分配给同一虚拟机的GPU之间进行通信。

开始使用G4上的P2P

G4点对点能力对工作负载是透明的,不需要更改应用程序代码或NVIDIA集体通信库(NCCL)等库。所有点对点路径在虚拟机创建期间自动设置。您可以在G4文档中找到有关为基于NCCL的工作负载启用点对点的更多信息。

立即从Google Cloud控制台试用带有P2P的Google Cloud G4虚拟机,并开始使用GKE Inference Gateway构建您的推理平台。如需更多信息,请联系您的Google Cloud销售团队或经销商。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计