谷歌AI超算平台重大升级:vLLM TPU助力大模型推理性能突破

谷歌云在2025年第三季度为其AI超算平台推出多项重要更新,包括支持TPU的vLLM推理引擎、增强版XProf性能分析器、NVIDIA Dynamo推理方案,以及基于NVIDIA NeMo RL的强化学习工具链,全面提升AI工作负载的部署效率和推理性能。

宣布全新vLLM TPU

对于使用大语言模型的机器学习从业者而言,以出色的性价比提供推理工作负载是终极目标。我们激动地宣布本季度最大更新:将JAX和我们行业领先的Cloud TPU的性能引入最受欢迎的开源LLM推理引擎vLLM。

vLLM TPU现由tpu-inference驱动,这是一个富有表现力的强大新硬件插件,将JAX和Pytorch统一在单个运行时下。它不仅比上一代vLLM TPU更快,还提供更广泛的模型覆盖和功能支持。vLLM TPU为开发者提供以下框架:

  • 在开源环境中突破TPU硬件性能极限
  • 通过无需代码修改即可在TPU上高性能运行Pytorch模型定义,为JAX和Pytorch用户提供更大灵活性,同时扩展对JAX的原生支持
  • 保留vLLM标准化:保持相同的用户体验、遥测和接口

与2025年2月发布的第一个TPU后端原型相比,当前vLLM TPU性能显著提升,模型支持和功能覆盖也更完善。客户现在只需进行少量配置更改,就能在开源环境中突破TPU推理性能的边界。

更多AI工具套件

以下是一些额外的AI超算平台更新,为您提供更多控制、洞察和选择。

使用改进的XProf分析器更快发现和修复瓶颈

调试性能是ML开发中最耗时的环节之一。为此我们强化了XProf分析器并发布了新的Cloud Diagnostics XProf库,为您提供跨JAX和PyTorch/XLA的统一高级分析体验,帮助您使用此前仅限谷歌内部团队使用的强大工具精确定位模型瓶颈。

开放实践:NVIDIA Dynamo新方案

我们基于选择原则构建AI超算平台,希望您能为手头任务使用最佳工具。新的AI推理方案演示了如何在AI超算平台上使用NVIDIA Dynamo部署分解式推理架构,将"预填充"和"解码"阶段分离到由GKE管理的不同GPU池中。

使用NVIDIA NeMo RL加速强化学习

对于推进强化学习边界的团队,现提供在谷歌云上使用NVIDIA NeMo RL的可复现方案。NeMo RL是专为解决RL工作负载固有复杂扩展和延迟挑战而设计的高性能框架,提供GRPO和PPO等关键算法的优化实现。新方案在A4虚拟机(搭载NVIDIA HGX B200)上运行,配备GKE和vLLM,为Llama 3.1 8B和Qwen2.5 1.5B等模型提供简化的RL开发周期设置和扩展路径。

经济高效地扩展高性能推理

生成式AI应用的用户体验高度依赖于对请求的快速初始响应和流畅的响应流式传输。为简化和标准化LLM服务,GKE Inference Gateway和Quickstart现已正式可用。Inference Gateway通过前缀感知负载均衡等新功能简化服务部署,显著改善重复提示工作负载的延迟。Inference Quickstart帮助您为特定模型找到最优且最具成本效益的硬件软件配置,节省数月手动评估时间。

在全面系统上构建未来

我们今天分享的进展——从将vLLM引入TPU到实现高级分析和第三方集成——都源于AI超算平台作为超级计算系统的前提,该系统不断演进以满足下一代AI的需求。

我们将基于从训练Gemini到每月服务数万亿token的经验,持续更新和优化AI超算平台。要了解更多关于使用AI超算平台处理您自己的AI工作负载的信息,请阅读此处。对上一季度汇总感兴趣?请参阅之前的文章。要随时了解我们的进展或提出问题,请加入我们的社区并访问我们在GitHub上不断增长的AI超算平台资源库。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计