多模态大语言模型压缩的结构剪枝与恢复技术实证研究
摘要
尽管多模态大语言模型(MLLMs)展现出卓越能力,但其巨大的计算和内存需求严重阻碍实际部署。现有参数缩减技术主要通过从小型语言模型(SLMs)训练MLLMs实现,但这些方法灵活性有限且仍需要大量计算。为弥补这一空白,本研究通过结构剪枝结合高效恢复训练直接压缩现有MLLMs。
方法
研究针对MLLMs的语言模型主干网络评估两种结构剪枝范式:
- 层级剪枝:移除整个网络层
- 宽度剪枝:减少每层神经元数量
恢复训练采用两种技术:
- 监督微调(Supervised Finetuning)
- 隐藏状态知识蒸馏(Hidden-state Knowledge Distillation)
关键发现
- 宽度剪枝优势:在计算资源有限或微调数据不足的低资源场景中,宽度剪枝能更好地保持性能
- 恢复训练效率:
- 小压缩比(<20%)时仅需微多多模态投影器
- 监督微调与隐藏状态蒸馏结合可在各种剪枝水平实现最优恢复
- 数据效率:仅需5%原始训练数据即可实现有效恢复,保持95%以上原始性能
实验验证
通过在LLaVA-v1.5-7B和Bunny-v1.0-3B两个典型MLLMs上的实证研究,为实践者提供了无需大量计算资源或充足数据即可有效压缩MLLMs的可行方案。
本研究已被GCPR 2025会议接收