知识蒸馏新突破
知识蒸馏(KD)是部署大规模语言模型到低延迟环境的核心技术,通过将大模型(“教师”)的知识迁移到小模型(“学生”)。学生模型虽效率更高但性能通常较弱。在某机构2023年计算语言学协会(ACL)会议上提出的ReAugKD框架,创新性地利用教师模型的预测知识库来提升学生模型性能。
技术实现
-
双阶段训练:
- 第一阶段:在微调后的教师模型编码器顶部添加线性投影层,将嵌入向量调整至与学生模型相同维度,使用监督对比损失进行参数微调
- 第二阶段:构建教师嵌入相似度矩阵,通过KL散度最小化教师-教师与教师-学生相似度分布差异
-
推理机制:
- 实时检索知识库中与当前输入最相似的教师预测
- 将聚合的教师预测与学生预测结合输出最终结果
实验成果
- 基准测试:将12层BERT-Base蒸馏至6层BERT
- 性能表现:
- GLUE基准中5/6任务达到SOTA
- 平均超越现有最佳KD方法0.42%
- 两个子任务分别提升1.37%和1.43%
- 检索增强版本比非检索版本提升0.45%
核心优势
- 仅增加3%延迟开销
- 可扩展至任何任务特定的外部知识
- 通过相似度对齐确保师生模型对"相似性"的理解一致
(图示展示在释义数据集中,检索相似示例的教师知识如何改善学生预测,最终预测结合了学生分数和教师聚合预测分数)