基础阅读蒸馏技术提升小模型性能

本文提出基础阅读蒸馏(BRD)方法,通过教导小模型模仿大语言模型的基础阅读行为,如命名实体识别和问答,使小模型在多项任务中性能媲美20倍参数量的大模型,且与知识蒸馏和任务蒸馏具有正交性。

基础阅读蒸馏

大语言模型(LLM)在自然语言处理各领域展现出卓越能力,但其高计算资源需求限制了实际部署。蒸馏技术通过知识蒸馏或任务蒸馏来解决此问题。这两种蒸馏方法均训练小模型模仿LLM的特定特征,但都忽略了小模型在与下游任务无关的通用文本上进行基础阅读教育。

本文提出基础阅读蒸馏(BRD)方法,教导小模型模仿LLM在每句话上的基础阅读行为,包括命名实体识别、问题提出与回答等。经过此类基础教育后,将小模型应用于包括语言推理基准和BIG-bench任务在内的多种任务。实验表明,小模型能够超越或媲美参数量20倍以上的LLM。

分析显示,BRD能有效影响小模型的概率分布,且与知识蒸馏或任务蒸馏具有正交性。该方法为提升小模型性能提供了新思路,特别是在资源受限环境下实现高效自然语言处理应用具有重要意义。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计