资源受限场景下的BART模型压缩技术
技术背景
机器要实现与人类流畅对话需掌握多项自然语言处理(NLP)能力,包括文本摘要、信息抽取和问答系统。正是这些技术使得虚拟助手能够在线搜索食谱或回答随机问题。
序列到序列预训练语言模型(如双向自回归Transformer BART)的最新进展,虽然在多项NLP任务中表现卓越,但代价是巨大的计算和内存资源消耗——典型BART模型可能包含数亿参数。对于手机或智能家居等资源受限设备,这导致BART完全无法使用。
双重压缩方案
在ACL 2022会议上,某中心AI实验室的科学家提出通过蒸馏与量化相结合的方法,将BART模型压缩至原大小的1/16且性能损失极小。
核心压缩技术
量化技术将高精度值映射到有限低精度值集合,知识蒸馏则通过训练轻量级学生模型模拟大型教师模型的行为,二者都是减少神经网络内存占用的常用技术。
研究人员创新性地将蒸馏与量化感知训练相结合:
- 首先针对特定NLP任务(如问答或文本摘要)微调教师模型(BART)
- 从训练好的教师模型中选择性复制权重到学生模型(蒸馏过程)
- 对学生模型进行量化产生低精度版本,同时保留全精度版本
- 量化学生模型处理训练数据时,同步计算两种损失:
- 标准任务损失(输出与真实值差异)
- 蒸馏损失(量化学生模型与教师模型差异)
梯度更新机制
两种损失共同用于更新全精度学生模型参数而非量化版本,因为标准神经网络更新算法依赖梯度下降,需要可微分(连续可变)的参数。量化模型的离散参数不可微分。
更新后的全精度学生模型再次量化以减少内存占用,形成闭环优化流程。
实验验证
研究人员在文本摘要和长式问答任务上,将蒸馏量化BART模型与三个基准模型进行效率对比,并探索了多语言模型mBART(英语-罗马尼亚语翻译)的压缩效果。
关键发现
- 蒸馏与量化结合比单独量化压缩效果更好
- 长式问答任务无性能损失,摘要任务性能下降极小
- 最大可将模型压缩至原尺寸1/28(但性能波动,需按任务评估)
- 对于mBART模型,8位量化效果良好,但2位量化时性能显著下降(归因于蒸馏和量化误差累积)
未来方向
研究人员计划进一步探索多语言mBART模型,评估包括头部剪枝和序列级蒸馏在内的其他压缩技术。当前研究聚焦内存占用,后续将扩展至延迟效应研究。
图示说明:量化感知训练过程中同时计算任务损失和蒸馏损失,但反向传播更新的是可微分全精度模型参数。学生模型通过仅复制教师模型部分网络层实现蒸馏。