EcoTransformer:无需乘法的注意力机制
Transformer凭借其缩放点积注意力机制已成为现代AI的基础架构。然而,该机制计算密集且能耗较高。提出了一种新型Transformer架构EcoTransformer,其中输出上下文向量通过使用拉普拉斯核对值进行卷积构建,其中距离通过查询和键之间的L1度量计算。
与基于点积的注意力相比,新的注意力分数计算无需矩阵乘法。在NLP、生物信息学和视觉任务中,其性能与缩放点积注意力相当甚至更优,同时能耗显著降低。
技术特点:
- 使用拉普拉斯核卷积替代点积计算
- 采用L1度量进行距离计算
- 完全消除矩阵乘法操作
- 在多项任务中保持性能的同时降低能耗
实验验证: 该方法在自然语言处理、生物信息学分析和计算机视觉任务中进行了验证,结果显示其在与传统注意力机制性能持平或更优的情况下,实现了显著的能效提升。