混合递归架构实现推理速度翻倍的技术解析
研究人员提出了一种新型Transformer架构——混合递归(Mixture-of-Recursions, MoR),通过结合参数共享与自适应计算来解决大语言模型(LLM)的高计算需求问题。该架构在相同参数数量和计算预算下,显著提升模型精度并实现更高吞吐量。
LLM的扩展挑战
随着模型规模扩大,内存占用和计算需求呈指数级增长,使得非超大规模数据中心的组织难以承担训练和部署成本。现有改进方法主要聚焦两类技术:
- 参数共享技术:通过跨模型部分重用权重减少唯一参数数量(如层绑定技术)
- 自适应计算方法:根据需求动态分配推理资源(如早期退出机制)
混合递归技术原理
MoR基于递归Transformer概念构建,将模型划分为若干具有共享参数池的"递归块"。其核心包含两个组件:
1. 轻量级路由机制
采用类似混合专家(MoE)模型的路由设计,但将"专家"替换为不同递归深度。路由器根据词元复杂度动态决定共享层块的应用次数,实现对计算资源的精准分配。
2. 递归感知KV缓存策略
通过选择性存储和检索特定递归步骤中活跃词元的键值对,减少内存流量并提升吞吐量,无需复杂的训练后修改。
实际性能表现
在1.35亿至17亿参数规模的测试中,MoR展现出显著优势:
- 同等计算预算下:少样本准确率提升至43.1%(基线模型42.3%),参数减少近50%
- 相同数据量训练:训练时间减少19%,峰值内存使用降低25%
- 推理吞吐量:最佳配置实现2.06倍加速比
企业级部署方案
研究表明可通过"向上训练"现有开源模型实现低成本部署。开发者可通过调整递归步数等架构参数,根据具体应用场景平衡性能与效率。该框架具备模态无关特性,可扩展至视频、音频等多模态数据处理,为复杂数据类型处理提供新的优化路径。
论文结论指出:MoR为"以显著降低的计算和内存开销实现大模型能力提供了有效路径"