利用教师模型知识增强学生模型推理能力

本文介绍了一种名为ReAugKD的创新知识蒸馏框架,通过在推理阶段检索教师模型的历史预测知识来增强学生模型性能,在6项NLP任务中实现SOTA效果,仅带来3%的延迟开销。

知识蒸馏新突破

知识蒸馏(KD)是部署大规模语言模型到低延迟环境的核心技术,通过将大模型(“教师”)的知识迁移到小模型(“学生”)。学生模型虽效率更高但性能通常较弱。在某机构2023年计算语言学协会(ACL)会议上提出的ReAugKD框架,创新性地利用教师模型的预测知识库来提升学生模型性能。

技术实现

  1. 双阶段训练

    • 第一阶段:在微调后的教师模型编码器顶部添加线性投影层,将嵌入向量调整至与学生模型相同维度,使用监督对比损失进行参数微调
    • 第二阶段:构建教师嵌入相似度矩阵,通过KL散度最小化教师-教师与教师-学生相似度分布差异
  2. 推理机制

    • 实时检索知识库中与当前输入最相似的教师预测
    • 将聚合的教师预测与学生预测结合输出最终结果

实验成果

  • 基准测试:将12层BERT-Base蒸馏至6层BERT
  • 性能表现:
    • GLUE基准中5/6任务达到SOTA
    • 平均超越现有最佳KD方法0.42%
    • 两个子任务分别提升1.37%和1.43%
  • 检索增强版本比非检索版本提升0.45%

核心优势

  • 仅增加3%延迟开销
  • 可扩展至任何任务特定的外部知识
  • 通过相似度对齐确保师生模型对"相似性"的理解一致

(图示展示在释义数据集中,检索相似示例的教师知识如何改善学生预测,最终预测结合了学生分数和教师聚合预测分数)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计