EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models

📄 arXiv: 2503.15369v1 📥 PDF

作者: Yinan Liang, Ziwei Wang, Xiuwei Xu, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2025-03-19

备注: Accepted by CVPR 2025


💡 一句话要点

EfficientLLaVA:面向大规模视觉语言模型的可泛化自动剪枝方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 模型剪枝 自动剪枝 泛化能力 结构风险最小化

📋 核心要点

  1. 现有剪枝方法依赖大规模训练数据,导致在大型视觉语言模型上搜索剪枝策略的成本过高。
  2. EfficientLLaVA利用少量样本,通过最大化泛化能力来搜索剪枝策略,在精度和效率之间取得平衡。
  3. 实验表明,EfficientLLaVA仅用64个样本进行剪枝策略搜索,在ScienceQA上达到83.05%的准确率,并加速1.8倍。

📝 摘要(中文)

多模态大型语言模型在复杂推理任务中表现出色,但部署时模型复杂度带来巨大挑战,尤其是在资源受限的设备上。本文提出一种针对大型视觉语言模型的自动剪枝方法,以提高多模态推理的效率。传统方法依赖原始模型的训练数据来选择不同网络组件的适当剪枝率,但由于网络规模训练语料库导致搜索成本过高,这些方法对于大型视觉语言模型来说是不切实际的。相反,我们的方法仅利用少量样本来搜索所需的剪枝策略,通过最大化其在未知训练数据上的泛化能力同时保持模型精度,从而实现大型视觉语言模型在精度和效率之间的最佳权衡。具体来说,我们使用结构风险最小化原则来公式化剪枝策略的泛化差距。基于任务性能和泛化能力,我们在给定的搜索空间内迭代搜索最佳剪枝策略,并优化视觉投影仪以演化具有更高性能上限的搜索空间。我们在ScienceQA、Vizwiz、MM-vet和LLaVA-Bench数据集上进行了大量的视觉问答任务实验。仅使用64个样本进行剪枝策略搜索,EfficientLLaVA在ScienceQA上实现了83.05%的准确率,与密集的LLaVA-v1.5-7B模型相比,速度提高了1.8倍。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLM)在部署时模型复杂度高、计算资源需求大的问题,尤其是在资源受限的设备上。现有剪枝方法依赖于原始模型的训练数据来确定剪枝比例,但由于LVLM训练数据量巨大,导致搜索最佳剪枝策略的计算成本非常高,使其难以应用。

核心思路:论文的核心思路是利用少量样本来搜索剪枝策略,并通过最大化该策略在未知数据上的泛化能力来保证剪枝后的模型性能。通过结构风险最小化原则来衡量剪枝策略的泛化差距,从而在精度和效率之间找到最佳平衡点。

技术框架:EfficientLLaVA的整体框架包含以下几个主要步骤:1) 使用少量样本构建剪枝策略搜索空间;2) 基于任务性能和泛化能力,迭代搜索最佳剪枝策略;3) 优化视觉投影仪,以提升搜索空间的性能上限。该框架通过迭代优化剪枝策略和视觉投影仪,逐步提升模型的效率和精度。

关键创新:该方法最重要的创新在于提出了基于泛化能力的自动剪枝策略搜索方法。与传统方法依赖大量训练数据不同,EfficientLLaVA仅使用少量样本,并通过结构风险最小化原则来评估剪枝策略的泛化能力,从而降低了搜索成本,使其适用于大型视觉语言模型。

关键设计:论文的关键设计包括:1) 使用结构风险最小化原则来公式化剪枝策略的泛化差距;2) 设计迭代搜索算法,在给定的搜索空间内寻找最佳剪枝策略;3) 优化视觉投影仪,以提升搜索空间的性能上限。具体参数设置和损失函数细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EfficientLLaVA在ScienceQA数据集上取得了显著的性能提升。仅使用64个样本进行剪枝策略搜索,该方法就实现了83.05%的准确率,并且与原始的LLaVA-v1.5-7B模型相比,推理速度提高了1.8倍。这些结果表明,EfficientLLaVA能够在保证模型精度的前提下,显著提高模型的效率。

🎯 应用场景

EfficientLLaVA具有广泛的应用前景,尤其是在移动设备、嵌入式系统等资源受限的场景下。它可以有效降低大型视觉语言模型的计算成本和存储需求,使其能够在这些平台上部署和运行。此外,该方法还可以应用于其他大型深度学习模型的压缩和加速,提高模型的实用性和可部署性。

📄 摘要(原文)

While multimodal large language models demonstrate strong performance in complex reasoning tasks, they pose significant challenges related to model complexity during deployment, especially for resource-limited devices. In this paper, we propose an automatic pruning method for large vision-language models to enhance the efficiency of multimodal reasoning. Conventional methods rely on the training data of the original model to select the proper pruning ratio for different network components. However, these methods are impractical for large vision-language models due to the unaffordable search costs caused by web-scale training corpus. In contrast, our approach only leverages a small number of samples to search for the desired pruning policy by maximizing its generalization ability on unknown training data while maintaining the model accuracy, which enables the achievement of an optimal trade-off between accuracy and efficiency for large visual language models. Specifically, we formulate the generalization gap of the pruning strategy using the structural risk minimization principle. Based on both task performance and generalization capability, we iteratively search for the optimal pruning policy within a given search space and optimize the vision projector to evolve the search space with higher upper bound of performance. We conduct extensive experiments on the ScienceQA, Vizwiz, MM-vet, and LLaVA-Bench datasets for the task of visual question answering. Using only 64 samples for pruning policy search, EfficientLLaVA achieves an accuracy of 83.05% on ScienceQA, along with a $\times$ 1.8 speedup compared to the dense LLaVA-v1.5-7B model.