动态剪枝网络节点以提升大语言模型效率

受大脑 specialized processing regions 启发的语言模型，可显著节省时间和成本。

大型语言模型和视觉语言模型等基础模型（FMs）日益流行，但其能源效率低下和计算成本高昂仍是广泛部署的障碍。为应对这些挑战，提出一种新架构，在实验中该架构将FM的推理时间减少30%，同时保持其准确性。该架构通过保持模型的适应性和结构完整性，克服了先前提高效率方法中的挑战。

传统架构中，当FM面临新任务时，数据会通过所有处理节点（即神经元），即使它们与当前任务无关。这种全员参与的方法导致高计算需求和成本增加。

目标是构建一个能够根据任务动态选择适当神经元子集的模型；这类似于大脑依赖视觉或听觉皮层中 specialized neurons 集群来看或听的方式。这样的FM可以适应多种输入（如语音和文本），跨多种语言，并产生多种输出。

在今年的国际学习表征会议（ICLR）上发表的论文中，提出了一种新颖的上下文感知FM，用于多语言语音识别、翻译和语言识别。该模型不是激活整个网络，而是根据输入上下文选择激活神经元束（即模块）。输入上下文包括输入语言、特定语言的语音特征以及任务是语音翻译、语音识别还是语言识别等特征。

一旦模型识别出上下文，它就会预测激活每个模块的可能性。这些可能性称为门概率，每个门概率构成一个称为门预测器的过滤器。如果门概率超过某个阈值，则激活相应的模块。

例如，基于几句德语口语，模型可能会预测上下文为“德语音频”，其可能性超过门阈值。该预测打开适当的子路径，关闭其他路径。

先前的剪枝方法侧重于模型层和卷积核的细粒度剪枝。然而，层剪枝可能会损害模型的结构完整性，而细粒度核剪枝可能会抑制模型适应不同输入的能力。

模块级剪枝可以在结构灵活性和解释不同上下文的能力之间取得平衡。模型被训练为在运行时动态剪枝不相关的模块，这鼓励每个模块专注于不同的任务。

在实验中，该模型的性能与传统模型相当，但GPU使用量减少30%，降低了成本并提高了速度。

除了节省计算资源外，该方法还可以观察模型在训练过程中如何处理语言信息。对于任务的每个组成部分，可以看到使用各种模块的概率分布。例如，如果要求模型将德语语音转录为文本，则仅激活德语和口语模块。

这项工作专注于专门处理语音任务的FMs。未来，旨在探索该方法如何推广到处理更多输入（包括视觉、语音、音频和文本）的FMs。

致谢：感谢所有参与有益讨论的研究人员。

动态剪枝提升大语言模型效率