混合递归架构实现推理速度翻倍的技术解析

韩国科学技术院与Mila研究所联合提出混合递归Transformer架构,通过参数共享与自适应计算机制,在相同参数量下实现43.1%的少样本准确率,推理吞吐量提升2.06倍,并降低25%内存占用。

混合递归架构实现推理速度翻倍的技术解析

研究人员提出了一种新型Transformer架构——混合递归(Mixture-of-Recursions, MoR),通过结合参数共享与自适应计算来解决大语言模型(LLM)的高计算需求问题。该架构在相同参数数量和计算预算下,显著提升模型精度并实现更高吞吐量。

LLM的扩展挑战

随着模型规模扩大,内存占用和计算需求呈指数级增长,使得非超大规模数据中心的组织难以承担训练和部署成本。现有改进方法主要聚焦两类技术:

  • 参数共享技术:通过跨模型部分重用权重减少唯一参数数量(如层绑定技术)
  • 自适应计算方法:根据需求动态分配推理资源(如早期退出机制)

混合递归技术原理

MoR基于递归Transformer概念构建,将模型划分为若干具有共享参数池的"递归块"。其核心包含两个组件:

1. 轻量级路由机制

采用类似混合专家(MoE)模型的路由设计,但将"专家"替换为不同递归深度。路由器根据词元复杂度动态决定共享层块的应用次数,实现对计算资源的精准分配。

2. 递归感知KV缓存策略

通过选择性存储和检索特定递归步骤中活跃词元的键值对,减少内存流量并提升吞吐量,无需复杂的训练后修改。

实际性能表现

在1.35亿至17亿参数规模的测试中,MoR展现出显著优势:

  • 同等计算预算下:少样本准确率提升至43.1%(基线模型42.3%),参数减少近50%
  • 相同数据量训练:训练时间减少19%,峰值内存使用降低25%
  • 推理吞吐量:最佳配置实现2.06倍加速比

企业级部署方案

研究表明可通过"向上训练"现有开源模型实现低成本部署。开发者可通过调整递归步数等架构参数,根据具体应用场景平衡性能与效率。该框架具备模态无关特性,可扩展至视频、音频等多模态数据处理,为复杂数据类型处理提供新的优化路径。

论文结论指出:MoR为"以显著降低的计算和内存开销实现大模型能力提供了有效路径"

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计