BERT语言模型加速20倍的技术突破
核心创新
通过结合两种专门设计的神经网络压缩算法,从BERT架构中提取出高度优化的语言模型Bort。该模型在保持性能的同时大幅提升效率。
技术方法
最优子架构提取(OSE)
- 将网络压缩问题形式化为寻找最优架构参数(层数、每层处理节点数等)
- 证明对于满足ABnC属性的网络(如BERT),存在完全多项式时间近似方案(FPTAS)
- 所得架构在参数大小、推理速度和错误率之间达到帕累托最优
Agora算法
- 针对小模型微调时的数据稀缺问题设计
- 通过开发集中错误样本的邻域采样和标注来增强训练数据
- 理论证明能够重建任务的原始数据分布
性能表现
- 有效参数量仅为原始BERT的5.5%(净大小16%)
- CPU推理速度提升20倍
- 在23项NLU任务中,20项性能超过原始BERT
- 最高相对性能提升达31%
技术意义
该方法不仅适用于BERT,还可推广到其他神经网络架构,为模型压缩提供了理论保证和实用算法。
相关代码数据集:Bort