资源受限场景下的BART模型压缩技术

技术背景

机器要实现与人类流畅对话需掌握多项自然语言处理（NLP）能力，包括文本摘要、信息抽取和问答系统。正是这些技术使得虚拟助手能够在线搜索食谱或回答随机问题。

序列到序列预训练语言模型（如双向自回归Transformer BART）的最新进展，虽然在多项NLP任务中表现卓越，但代价是巨大的计算和内存资源消耗——典型BART模型可能包含数亿参数。对于手机或智能家居等资源受限设备，这导致BART完全无法使用。

在ACL 2022会议上，某中心AI实验室的科学家提出通过蒸馏与量化相结合的方法，将BART模型压缩至原大小的1/16且性能损失极小。

量化技术将高精度值映射到有限低精度值集合，知识蒸馏则通过训练轻量级学生模型模拟大型教师模型的行为，二者都是减少神经网络内存占用的常用技术。

研究人员创新性地将蒸馏与量化感知训练相结合：

两种损失共同用于更新全精度学生模型参数而非量化版本，因为标准神经网络更新算法依赖梯度下降，需要可微分（连续可变）的参数。量化模型的离散参数不可微分。

更新后的全精度学生模型再次量化以减少内存占用，形成闭环优化流程。

研究人员在文本摘要和长式问答任务上，将蒸馏量化BART模型与三个基准模型进行效率对比，并探索了多语言模型mBART（英语-罗马尼亚语翻译）的压缩效果。

研究人员计划进一步探索多语言mBART模型，评估包括头部剪枝和序列级蒸馏在内的其他压缩技术。当前研究聚焦内存占用，后续将扩展至延迟效应研究。

图示说明：量化感知训练过程中同时计算任务损失和蒸馏损失，但反向传播更新的是可微分全精度模型参数。学生模型通过仅复制教师模型部分网络层实现蒸馏。