克服大规模AI推理的成本与复杂性
将AI模型投入大规模运营是IT领导者面临的关键挑战。虽然训练大型语言模型(LLM)的初始成本可能很高,但真正且经常被低估的费用与推理相关。AI推理——使用训练好的模型生成输出的过程——是AI应用中最资源密集且成本最高的部分,特别是在生产环境中持续运行时。低效的推理会损害AI项目的潜在投资回报率(ROI),并因高延迟而对客户体验产生负面影响。
全栈AI性能方法
有效大规模服务LLM需要战略性、全栈的方法,既要解决模型本身问题,也要解决服务运行时问题。单一方法是不够的。实现高性能和成本效益需要双重关注——管理资源消耗和最大化吞吐量。
优化AI模型
这种方法的一个战略部分是模型压缩,它可以在不牺牲准确性的情况下减小模型大小和资源需求。
量化是模型优化的关键技术。它将模型的数值(如权重和激活)的精度从标准的16位降低到更低的格式,如8位或4位。这显著缩小了模型的内存占用,使其能够在更少的硬件上运行。
稀疏性是另一种有效方法,通过移除不必要的连接(权重)使模型更高效。这使得网络更小、更快,同时对准确性的影响最小。
优化推理运行时
优化服务运行时同样重要。基本运行时通常难以应对低效的GPU内存使用和缓慢的令牌生成,导致GPU闲置和高延迟。高性能运行时能最大化昂贵GPU硬件的使用并减少延迟。
开源vLLM项目已成为高性能推理的行业标准,因为它通过优化效率的技术解决了这些运行时限制。
连续批处理通过并发处理来自多个请求的令牌来最小化GPU闲置时间。它不是一次处理单个请求,而是将来自不同序列的令牌分组为批次。这种方法显著提高了GPU利用率和推理吞吐量。
分页注意力是另一个例子。这种新颖的内存管理策略有效处理大规模键值(KV)缓存,允许更多并发请求和更长序列,同时减少内存瓶颈。
实现分布式大规模AI
对于具有高流量应用的企业来说,单服务器部署通常不足。开源llm-d项目基于vLLM的能力构建,支持分布式多节点推理。这使组织能够跨多个服务器扩展AI工作负载,以处理不断增长的需求和更大的模型,同时保持可预测的性能和成本效益。
llm-d是一个开源控制平面,通过AI工作负载所需的特定功能增强Kubernetes。该项目专注于影响推理性能和效率的功能,包括:
- 语义路由:llm-d使用实时数据智能地将推理请求路由到最优实例。这提高了资源使用效率并减少了昂贵的过度配置。
- 工作负载解耦:这将预填充和解码阶段分开,以便为正确的任务使用最优资源。
- 支持高级架构:llm-d设计用于处理新兴模型架构——如专家混合(MoE)——这些架构需要跨多个节点的编排和并行性。
通过创建跨不同硬件和环境的灵活控制平面,llm-d社区正在努力为企业级大规模AI建立标准。
红帽如何简化大规模AI
在企业级别采用AI不仅仅是选择模型。它需要跨混合云基础设施的开发、部署和管理的策略。红帽提供一系列企业级产品组合,旨在简化和加速这一过程,从初始模型开发到大规模推理。
红帽AI
红帽AI产品组合提供全栈AI优化方法。这一集成产品包括红帽企业Linux AI(RHEL AI)、红帽OpenShift AI和红帽AI推理服务器。
RHEL AI为AI开发提供基础,将RHEL与关键开源组件(如IBM的Granite模型和PyTorch等库)打包。该平台具有可移植性,能够在本地、公共云或边缘运行。
红帽OpenShift AI基于红帽OpenShift构建,专为管理完整AI生命周期而设计。它为数据科学家、开发人员和IT团队提供一致的协作环境。它在混合云环境中扩展AI工作负载,并简化硬件加速器管理。
红帽AI推理服务器通过提供支持vLLM的发行版来优化推理,为高吞吐量、低延迟性能而构建。作为容器交付,它可在不同基础设施间移植,并包含模型压缩工具以帮助减少计算使用。对于超越单服务器的扩展,红帽AI推理服务器与开源llm-d项目配合使用。
对于IT领导者来说,全栈、混合云AI策略是规模化运营AI的最有效途径。红帽AI提供一致的基础,帮助组织从AI实验转向全面、生产就绪的AI,基于我们的愿景:“任何模型、任何加速器、任何云”。
了解更多
要开始您组织简化、可扩展AI的旅程,请探索红帽AI网站上提供的资源。