基于脉动阵列的状态空间模型加速器设计

基于脉动阵列的状态空间模型加速器设计

本文提出了一种名为EpochCore的专用硬件加速器，采用脉动阵列架构和创新的LIMA-PE处理单元，显著提升了状态空间模型在长序列任务中的推理效率，性能提升达250倍，能效提高45倍。

摘要

序列建模是AI理解时序数据的关键技术。传统模型（如RNN、CNN和Transformer）在处理超长序列时存在内存限制问题。状态空间模型（SSMs）通过指数衰减记忆机制实现长上下文窗口，但其微分方程求解过程导致计算和内存需求激增。本文提出基于脉动阵列的专用加速器EpochCore，其核心创新包括：

LIMA-PE处理单元：支持传统乘累加（MAC）和SSM专用运算
ProDF数据流：优化SSM模型执行效率实验显示，相较传统脉动阵列加速器，EpochCore在LRA数据集上实现：

250倍性能提升
45倍能效改进
2,000倍延迟降低（相比GPU内核操作）

技术架构

脉动阵列设计

异构计算单元：阵列中集成传统MAC单元和SSM专用运算单元
数据复用机制：通过空间局部性优化减少内存访问

LIMA-PE特性

可配置计算模式：动态切换DNN/SSM运算
混合精度支持：16/32位浮点运算单元

ProDF数据流

权重预加载：利用脉动阵列的流水线特性
中间结果缓存：减少跨PE数据传输
稀疏模式检测：动态跳过零值计算

实验结果

指标	提升倍数	对比基线
吞吐量	250x	传统SA加速器
能效比	45x	传统SA加速器
推理延迟	~2000x	GPU内核操作
面积开销	+2x	传统SA加速器

应用场景

基因组序列分析
高分辨率视频处理
金融时间序列预测

comments powered by Disqus