HCAttention:通过异构注意力计算实现LLM极致KV缓存压缩
处理长上下文输入时,大语言模型推理过程中的键值(KV)缓存存在巨大内存需求挑战。现有KV缓存压缩方法在内存减少超过85%时会出现明显性能下降,且基于GPU-CPU协同的近似注意力策略在该领域尚未得到充分探索。
提出HCAttention异构注意力计算框架,整合关键量化、值卸载和动态KV淘汰机制,实现在极端内存约束下的高效推理。该方法兼容现有Transformer架构,且无需模型微调。
在LongBench基准测试中,该方法在将KV缓存内存占用压缩至原始大小25%的情况下,仍能保持全注意力模型的精度。值得注意的是,即使仅使用12.5%的缓存,该方法仍保持竞争力,创下LLM KV缓存压缩的最新性能纪录。据所知,HCAttention首次实现了在单张80GB内存的A100显卡上扩展Llama-3-8B模型处理400万token的能力。
主题分类:计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)