Structural Pruning of Large Vision Language Models: A Comprehensive Study on Pruning Dynamics, Recovery, and Data Efficiency
作者: Yiran Huang, Lukas Thede, Massimiliano Mancini, Wenjia Xu, Zeynep Akata
分类: cs.CL
发布日期: 2026-04-27
备注: Accepted at International Journal of Computer Vision (IJCV) 2026
🔗 代码/项目: GITHUB
💡 一句话要点
研究LVLM结构化剪枝,探索剪枝策略、恢复训练和数据效率的平衡。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 结构化剪枝 模型压缩 知识蒸馏 低资源学习
📋 核心要点
- 现有LVLM计算和内存需求高,难以在边缘设备部署,且现有压缩方法计算密集、灵活性差。
- 通过结构化剪枝压缩LVLM,并结合监督微调和知识蒸馏进行恢复训练,提升压缩效率。
- 实验表明,逐宽度剪枝在低资源场景表现更优,仅用5%数据恢复训练即可保留95%性能。
📝 摘要(中文)
大型视觉语言模型(LVLM)能力强大,但其巨大的计算和内存需求给资源受限的边缘设备部署带来了挑战。现有的参数缩减技术主要涉及从小语言模型训练LVLM,但这些方法灵活性有限且计算密集。本研究探索了一种互补的途径:通过对语言模型骨干应用结构化剪枝来压缩现有LVLM,然后进行轻量级的恢复训练。具体而言,我们研究了两种结构化剪枝范式:逐层剪枝和逐宽度剪枝,并将它们与监督微调以及logits和隐藏状态的知识蒸馏相结合。此外,我们评估了仅使用一小部分可用数据进行恢复训练的可行性。结果表明,在计算资源有限或微调数据不足的低资源场景中,逐宽度剪枝通常能保持更好的性能。对于恢复训练,仅微调多模态投影器在较小的压缩级别下就足够了。此外,监督微调和隐藏状态蒸馏的结合可在各种剪枝级别上实现最佳恢复。值得注意的是,仅使用原始数据的5%即可实现有效的恢复,同时保留超过95%的原始性能。通过对三个具有代表性的、参数量从3B到7B的LVLM家族的实证研究,本研究为从业者提供了在没有大量计算资源或足够数据的情况下压缩LVLM的可行性方案。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLM)在资源受限设备上部署困难的问题。现有参数缩减方法,如从小模型训练LVLM,计算成本高昂且缺乏灵活性。因此,需要一种更高效、更灵活的LVLM压缩方法,使其能够在边缘设备上运行。
核心思路:论文的核心思路是通过结构化剪枝来压缩现有的LVLM,并使用轻量级的恢复训练来弥补剪枝带来的性能损失。结构化剪枝能够直接移除模型中的某些结构(如层或神经元),从而降低模型的计算和内存需求。轻量级的恢复训练则通过微调或知识蒸馏等方法,使剪枝后的模型尽可能恢复到原始模型的性能水平。
技术框架:论文的技术框架主要包含三个阶段:1) 结构化剪枝:对LVLM的语言模型骨干进行结构化剪枝,包括逐层剪枝和逐宽度剪枝两种方式。2) 恢复训练:使用监督微调和知识蒸馏等方法对剪枝后的模型进行恢复训练。知识蒸馏包括logits蒸馏和隐藏状态蒸馏。3) 性能评估:在不同的剪枝比例和数据量下,评估剪枝后模型的性能。
关键创新:论文的关键创新在于系统性地研究了结构化剪枝在LVLM压缩中的应用,并探索了不同的剪枝策略和恢复训练方法。特别地,论文深入分析了逐层剪枝和逐宽度剪枝的优劣,以及不同恢复训练方法(如监督微调、logits蒸馏和隐藏状态蒸馏)的效果。此外,论文还研究了在数据量有限的情况下进行恢复训练的可行性。
关键设计:论文的关键设计包括:1) 剪枝策略:分别采用逐层剪枝和逐宽度剪枝,并比较它们的性能差异。2) 恢复训练方法:结合监督微调和知识蒸馏,其中知识蒸馏包括logits蒸馏和隐藏状态蒸馏。3) 数据效率:研究使用不同比例的原始数据进行恢复训练的效果,探索在数据量有限的情况下实现有效恢复的方法。4) 模型选择:选择三个具有代表性的LVLM家族(参数量从3B到7B)进行实验,以验证方法的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,逐宽度剪枝在低资源场景下表现更优。在恢复训练方面,仅微调多模态投影器在较小压缩级别下即可。监督微调和隐藏状态蒸馏的结合在各种剪枝级别上实现了最佳恢复。值得注意的是,仅使用原始数据的5%即可实现有效的恢复,同时保留超过95%的原始性能。
🎯 应用场景
该研究成果可应用于各种资源受限的场景,例如移动设备、嵌入式系统和边缘计算平台。通过压缩LVLM,可以在这些设备上部署更强大的视觉语言模型,从而实现更智能的应用,如智能助手、图像识别和自然语言处理等。此外,该研究还可以降低LVLM的训练和部署成本,促进其更广泛的应用。
📄 摘要(原文)
While Large Vision Language Models (LVLMs) demonstrate impressive capabilities, their substantial computational and memory requirements pose deployment challenges on resource-constrained edge devices. Current parameter reduction techniques primarily involve training LVLMs from small language models, but these methods offer limited flexibility and remain computationally intensive. We study a complementary route: compressing existing LVLMs by applying structured pruning to the language model backbone, followed by lightweight recovery training. Specifically, we investigate two structural pruning paradigms: layerwise and widthwise pruning, and pair them with supervised finetuning and knowledge distillation on logits and hidden states. Additionally, we assess the feasibility of conducting recovery training with only a small fraction of the available data. Our results show that widthwise pruning generally maintains better performance in low-resource scenarios, where computational resources are limited or there is insufficient finetuning data. As for the recovery training, finetuning only the multimodal projector is sufficient at small compression levels. Furthermore, a combination of supervised finetuning and hidden-state distillation yields optimal recovery across various pruning levels. Notably, effective recovery can be achieved using just 5% of the original data, while retaining over 95% of the original performance. Through empirical study on three representative LVLM families ranging from 3B to 7B parameters, this study offers actionable insights for practitioners to compress LVLMs without extensive computation resources or sufficient data. The code base is available at https://github.com/YiranHuangIrene/VLMCompression.git.