SageMaker HyperPod 新特性:托管分层 KV 缓存与智能路由优化 LLM 推理

亚马逊 SageMaker HyperPod 现已支持用于大语言模型推理的托管分层 KV 缓存和智能路由功能,可显著降低长上下文提示与多轮对话的处理延迟与成本,提供高达 40% 的延迟降低和 25% 的成本节约。

SageMaker HyperPod 现已支持托管分层 KV 缓存和智能路由

发布于:2025 年 11 月 26 日

Amazon SageMaker HyperPod 现在支持用于大语言模型推理的托管分层键值缓存智能路由功能,使客户能够针对长上下文提示和多轮对话优化推理性能。部署生产级 LLM 应用的客户在处理长文档或保持对话上下文时,需要快速的响应时间。然而,传统的推理方法需要在生成每个新令牌时为所有先前的令牌重新计算注意力机制,这会带来计算开销并推高成本。托管分层 KV 缓存通过智能缓存和复用计算值来应对这一挑战,而智能路由则将请求定向到最优的实例。

相比基线配置,这些功能可提供高达 40% 的延迟降低、25% 的吞吐量提升和 25% 的成本节约。托管分层 KV 缓存功能采用结合本地 CPU 内存(L1)与解耦的集群范围存储(L2)的两层架构。AWS 原生的解耦分层存储是推荐的存储后端,它提供可扩展的 TB 级容量,并支持从 CPU 内存到本地 SSD 的自动分层,以实现最佳的内存和存储利用率。我们也提供 Redis 作为备选的 L2 缓存方案。该架构能够高效地跨请求复用先前计算的键值对。

新引入的智能路由通过三种可配置策略最大化缓存利用率:

  • 前缀感知路由:针对常见的提示模式。
  • KV 感知路由:通过实时缓存跟踪实现最大缓存效率。
  • 轮询:适用于无状态工作负载。

这些功能协同工作,无缝衔接。智能路由将请求定向到具有相关缓存数据的实例,从而减少文档分析中生成首个令牌的时间,并在多轮对话中保持自然的对话流。内置的与 Amazon Managed Grafana 的可观测性集成提供了用于监控性能的指标。您可以通过 InferenceEndpointConfig 或在 EKS 编排的集群上通过 HyperPod Inference Operator 部署模型时,使用 SageMaker JumpStart 来启用这些功能。

这些功能在 SageMaker HyperPod 可用的所有区域均已推出。要了解更多信息,请参阅用户指南。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计