大语言模型KV缓存极致压缩技术突破

Sat, 20 Sep 2025 12:49:42 +0800

HCAttention：通过异构注意力计算实现LLM极致KV缓存压缩

处理长上下文输入时，大语言模型推理过程中的键值（KV）缓存存在巨大内存需求挑战。现有KV缓存压缩方法在内存减少超过85%时会出现明显性能下降，且基于GPU-CPU协同的近似注意力策略在该领域尚未得到充分探索。