混合递归架构实现推理速度翻倍的技术解析

研究人员提出了一种新型Transformer架构——混合递归（Mixture-of-Recursions, MoR），通过结合参数共享与自适应计算来解决大语言模型（LLM）的高计算需求问题。该架构在相同参数数量和计算预算下，显著提升模型精度并实现更高吞吐量。

LLM的扩展挑战

随着模型规模扩大，内存占用和计算需求呈指数级增长，使得非超大规模数据中心的组织难以承担训练和部署成本。现有改进方法主要聚焦两类技术：

MoR基于递归Transformer概念构建，将模型划分为若干具有共享参数池的"递归块"。其核心包含两个组件：

采用类似混合专家（MoE）模型的路由设计，但将"专家"替换为不同递归深度。路由器根据词元复杂度动态决定共享层块的应用次数，实现对计算资源的精准分配。

通过选择性存储和检索特定递归步骤中活跃词元的键值对，减少内存流量并提升吞吐量，无需复杂的训练后修改。

在1.35亿至17亿参数规模的测试中，MoR展现出显著优势：

研究表明可通过"向上训练"现有开源模型实现低成本部署。开发者可通过调整递归步数等架构参数，根据具体应用场景平衡性能与效率。该框架具备模态无关特性，可扩展至视频、音频等多模态数据处理，为复杂数据类型处理提供新的优化路径。

论文结论指出：MoR为"以显著降低的计算和内存开销实现大模型能力提供了有效路径"