多模态大语言模型压缩的结构剪枝与恢复技术实证研究

本研究针对多模态大语言模型的高计算资源需求问题,系统评估了层级和宽度两种结构剪枝范式,结合监督微调和知识蒸馏恢复技术。实验表明仅需5%训练数据即可恢复95%性能,为资源受限场景提供有效压缩方案。

多模态大语言模型压缩的结构剪枝与恢复技术实证研究

摘要

尽管多模态大语言模型(MLLMs)展现出卓越能力,但其巨大的计算和内存需求严重阻碍实际部署。现有参数缩减技术主要通过从小型语言模型(SLMs)训练MLLMs实现,但这些方法灵活性有限且仍需要大量计算。为弥补这一空白,本研究通过结构剪枝结合高效恢复训练直接压缩现有MLLMs。

方法

研究针对MLLMs的语言模型主干网络评估两种结构剪枝范式:

  1. 层级剪枝:移除整个网络层
  2. 宽度剪枝:减少每层神经元数量

恢复训练采用两种技术:

  • 监督微调(Supervised Finetuning)
  • 隐藏状态知识蒸馏(Hidden-state Knowledge Distillation)

关键发现

  1. 宽度剪枝优势:在计算资源有限或微调数据不足的低资源场景中,宽度剪枝能更好地保持性能
  2. 恢复训练效率
    • 小压缩比(<20%)时仅需微多多模态投影器
    • 监督微调与隐藏状态蒸馏结合可在各种剪枝水平实现最优恢复
  3. 数据效率:仅需5%原始训练数据即可实现有效恢复,保持95%以上原始性能

实验验证

通过在LLaVA-v1.5-7B和Bunny-v1.0-3B两个典型MLLMs上的实证研究,为实践者提供了无需大量计算资源或充足数据即可有效压缩MLLMs的可行方案。

本研究已被GCPR 2025会议接收

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计