Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study
作者: Yiran Huang, Lukas Thede, Massimiliano Mancini, Wenjia Xu, Zeynep Akata
分类: cs.CL, cs.CV
发布日期: 2025-07-28
备注: Accepted at GCPR 2025
💡 一句话要点
研究多模态大语言模型的结构化剪枝与恢复技术,实现高效压缩。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 结构化剪枝 模型压缩 知识蒸馏 恢复训练 低资源学习 参数缩减
📋 核心要点
- 现有MLLM压缩方法依赖从小模型训练,计算成本高且灵活性不足,难以适应资源受限场景。
- 提出结构化剪枝与恢复训练相结合的MLLM压缩方案,探索逐层和逐宽度剪枝策略。
- 实验表明,宽度剪枝在低资源下表现更优,仅用5%数据恢复训练即可保留95%性能。
📝 摘要(中文)
多模态大语言模型(MLLMs)展现了强大的能力,但其巨大的计算和内存需求对实际部署构成了重大障碍。现有的参数缩减技术主要涉及从小语言模型(SLMs)训练MLLMs,但这些方法灵活性有限且计算密集。为了解决这个问题,我们提出通过结构化剪枝结合高效的恢复训练来直接压缩现有的MLLMs。具体来说,我们研究了应用于MLLMs语言模型主干的两种结构化剪枝范式——逐层剪枝和逐宽度剪枝,以及监督微调和知识蒸馏。此外,我们评估了仅使用一小部分可用数据进行恢复训练的可行性。结果表明,在计算资源有限或微调数据不足的低资源场景中,逐宽度剪枝通常能保持更好的性能。对于恢复训练,在较小的压缩级别(<20%)下,仅微调多模态投影仪就足够了。此外,监督微调和隐藏状态蒸馏的结合在各种剪枝级别上都能产生最佳的恢复效果。值得注意的是,仅使用原始训练数据的5%即可实现有效的恢复,同时保留超过95%的原始性能。通过对两个代表性的MLLMs(即LLaVA-v1.5-7B和Bunny-v1.0-3B)的实证研究,本研究为旨在有效压缩MLLMs而无需大量计算资源或足够数据的从业者提供了可操作的见解。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)计算和内存需求过高,难以在资源受限环境下部署的问题。现有方法主要依赖从小语言模型(SLMs)训练MLLMs,这种方式计算成本高昂,且灵活性不足,无法直接压缩已有的MLLMs。
核心思路:论文的核心思路是通过结构化剪枝直接压缩现有的MLLMs,并结合高效的恢复训练来弥补剪枝带来的性能损失。结构化剪枝能够有效减少模型参数量,而恢复训练则能够使剪枝后的模型尽可能恢复到原始模型的性能水平。
技术框架:论文的技术框架主要包含两个阶段:结构化剪枝和恢复训练。在结构化剪枝阶段,论文探索了两种剪枝范式:逐层剪枝和逐宽度剪枝,应用于MLLMs的语言模型主干。在恢复训练阶段,论文研究了监督微调和知识蒸馏两种方法,并评估了仅使用少量数据进行恢复训练的可行性。
关键创新:论文的关键创新在于直接对MLLMs进行结构化剪枝,并结合高效的恢复训练。与以往从小模型训练MLLMs的方法相比,该方法更加灵活,可以直接应用于已有的MLLMs,并且能够有效减少计算成本。此外,论文还探索了不同的剪枝范式和恢复训练方法,并评估了它们在不同资源条件下的性能。
关键设计:论文的关键设计包括:1) 探索了逐层和逐宽度两种结构化剪枝范式;2) 研究了监督微调和隐藏状态蒸馏两种恢复训练方法;3) 评估了不同比例的训练数据对恢复训练效果的影响;4) 针对不同的剪枝比例,分析了仅微调多模态投影层和微调整个语言模型主干的性能差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,宽度剪枝在低资源场景下表现更优。在恢复训练方面,仅微调多模态投影仪在小压缩率(<20%)下即可有效恢复性能。结合监督微调和隐藏状态蒸馏,可以使用原始数据5%进行恢复训练,同时保留超过95%的原始性能。该研究在LLaVA-v1.5-7B和Bunny-v1.0-3B两个代表性MLLMs上进行了验证。
🎯 应用场景
该研究成果可应用于移动设备、边缘计算等资源受限场景下的多模态大语言模型部署。通过压缩模型大小,降低计算需求,使得MLLMs能够在更广泛的设备上运行,从而推动多模态人工智能技术的普及和应用。未来可进一步探索更高效的剪枝和恢复策略,提升压缩率和模型性能。
📄 摘要(原文)
While Multimodal Large Language Models (MLLMs) demonstrate impressive capabilities, their substantial computational and memory requirements pose significant barriers to practical deployment. Current parameter reduction techniques primarily involve training MLLMs from Small Language Models (SLMs), but these methods offer limited flexibility and remain computationally intensive. To address this gap, we propose to directly compress existing MLLMs through structural pruning combined with efficient recovery training. Specifically, we investigate two structural pruning paradigms--layerwise and widthwise pruning--applied to the language model backbone of MLLMs, alongside supervised finetuning and knowledge distillation. Additionally, we assess the feasibility of conducting recovery training with only a small fraction of the available data. Our results show that widthwise pruning generally maintains better performance in low-resource scenarios with limited computational resources or insufficient finetuning data. As for the recovery training, finetuning only the multimodal projector is sufficient at small compression levels (< 20%). Furthermore, a combination of supervised finetuning and hidden-state distillation yields optimal recovery across various pruning levels. Notably, effective recovery can be achieved with as little as 5% of the original training data, while retaining over 95% of the original performance. Through empirical study on two representative MLLMs, i.e., LLaVA-v1.5-7B and Bunny-v1.0-3B, this study offers actionable insights for practitioners aiming to compress MLLMs effectively without extensive computation resources or sufficient data.