克服大规模AI推理的成本与复杂性

将AI模型投入大规模运营是IT领导者面临的关键挑战。虽然训练大型语言模型(LLM)的初始成本可能很高，但真正且经常被低估的费用与推理相关。AI推理——使用训练好的模型生成输出的过程——是AI应用中最资源密集且成本最高的部分，特别是在生产环境中持续运行时。低效的推理会损害AI项目的潜在投资回报率(ROI)，并因高延迟而对客户体验产生负面影响。

全栈AI性能方法

有效大规模服务LLM需要战略性、全栈的方法，既要解决模型本身问题，也要解决服务运行时问题。单一方法是不够的。实现高性能和成本效益需要双重关注——管理资源消耗和最大化吞吐量。

优化AI模型

这种方法的一个战略部分是模型压缩，它可以在不牺牲准确性的情况下减小模型大小和资源需求。

量化是模型优化的关键技术。它将模型的数值（如权重和激活）的精度从标准的16位降低到更低的格式，如8位或4位。这显著缩小了模型的内存占用，使其能够在更少的硬件上运行。

稀疏性是另一种有效方法，通过移除不必要的连接（权重）使模型更高效。这使得网络更小、更快，同时对准确性的影响最小。

优化推理运行时

优化服务运行时同样重要。基本运行时通常难以应对低效的GPU内存使用和缓慢的令牌生成，导致GPU闲置和高延迟。高性能运行时能最大化昂贵GPU硬件的使用并减少延迟。

开源vLLM项目已成为高性能推理的行业标准，因为它通过优化效率的技术解决了这些运行时限制。

连续批处理通过并发处理来自多个请求的令牌来最小化GPU闲置时间。它不是一次处理单个请求，而是将来自不同序列的令牌分组为批次。这种方法显著提高了GPU利用率和推理吞吐量。

分页注意力是另一个例子。这种新颖的内存管理策略有效处理大规模键值(KV)缓存，允许更多并发请求和更长序列，同时减少内存瓶颈。

实现分布式大规模AI

对于具有高流量应用的企业来说，单服务器部署通常不足。开源llm-d项目基于vLLM的能力构建，支持分布式多节点推理。这使组织能够跨多个服务器扩展AI工作负载，以处理不断增长的需求和更大的模型，同时保持可预测的性能和成本效益。

llm-d是一个开源控制平面，通过AI工作负载所需的特定功能增强Kubernetes。该项目专注于影响推理性能和效率的功能，包括：

语义路由：llm-d使用实时数据智能地将推理请求路由到最优实例。这提高了资源使用效率并减少了昂贵的过度配置。
工作负载解耦：这将预填充和解码阶段分开，以便为正确的任务使用最优资源。
支持高级架构：llm-d设计用于处理新兴模型架构——如专家混合(MoE)——这些架构需要跨多个节点的编排和并行性。

通过创建跨不同硬件和环境的灵活控制平面，llm-d社区正在努力为企业级大规模AI建立标准。

红帽如何简化大规模AI

在企业级别采用AI不仅仅是选择模型。它需要跨混合云基础设施的开发、部署和管理的策略。红帽提供一系列企业级产品组合，旨在简化和加速这一过程，从初始模型开发到大规模推理。

红帽AI

红帽AI产品组合提供全栈AI优化方法。这一集成产品包括红帽企业Linux AI(RHEL AI)、红帽OpenShift AI和红帽AI推理服务器。

RHEL AI为AI开发提供基础，将RHEL与关键开源组件（如IBM的Granite模型和PyTorch等库）打包。该平台具有可移植性，能够在本地、公共云或边缘运行。

红帽OpenShift AI基于红帽OpenShift构建，专为管理完整AI生命周期而设计。它为数据科学家、开发人员和IT团队提供一致的协作环境。它在混合云环境中扩展AI工作负载，并简化硬件加速器管理。

红帽AI推理服务器通过提供支持vLLM的发行版来优化推理，为高吞吐量、低延迟性能而构建。作为容器交付，它可在不同基础设施间移植，并包含模型压缩工具以帮助减少计算使用。对于超越单服务器的扩展，红帽AI推理服务器与开源llm-d项目配合使用。

对于IT领导者来说，全栈、混合云AI策略是规模化运营AI的最有效途径。红帽AI提供一致的基础，帮助组织从AI实验转向全面、生产就绪的AI，基于我们的愿景：“任何模型、任何加速器、任何云”。

了解更多

要开始您组织简化、可扩展AI的旅程，请探索红帽AI网站上提供的资源。