高效注意力机制在大语言模型中的应用综述

基于Transformer的架构已成为大语言模型的主流骨干网络。然而，自注意力机制的二次时间与内存复杂度仍是高效长上下文建模的根本性障碍。为突破这一限制，近期研究提出了两大高效注意力机制类别：

线性注意力方法通过核近似、循环公式或快速权重动态实现线性复杂度，从而在降低计算开销的同时实现可扩展推理。

稀疏注意力技术则通过固定模式、块状路由或聚类策略将注意力计算限制在选定令牌子集，在保持上下文覆盖的同时提升效率。

本综述系统性地整合了算法创新与硬件层级考量，全面概述这些进展。此外，还分析了高效注意力在大规模预训练语言模型中的集成方案，包括完全基于高效注意力的架构以及结合局部与全局组件的混合设计。通过将理论基础与实际部署策略相结合，本研究旨在为推进可扩展高效语言模型的设计提供基础性参考。

大语言模型高效注意力机制综述