大语言模型KV缓存极致压缩技术突破

Sat, 20 Sep 2025 12:49:42 +0800

HCAttention：通过异构注意力计算实现LLM极致KV缓存压缩

处理长上下文输入时，大语言模型推理过程中的键值（KV）缓存存在巨大内存需求挑战。现有KV缓存压缩方法在内存减少超过85%时会出现明显性能下降，且基于GPU-CPU协同的近似注意力策略在该领域尚未得到充分探索。

Wed, 17 Sep 2025 18:33:31 +0800

研究人员通过测试时计算技术生成加速AI开发的内核，意外发现仅通过合成数据生成就能产生优于人类专家优化的PyTorch基线内核。关键创新包括：