GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models
作者: Mingzhe Huang, Weijun Wang, Xin Ding, Liang Mi, Hao Wen, Yuanchun Li, Lichen Pang, Shansong Yang, Yunxin Liu, Ting Cao
分类: cs.CV, cs.AI
发布日期: 2026-05-13
备注: 10 pages, 11 figures
💡 一句话要点
提出GRIP-VLM,通过强化学习进行组相对重要性剪枝,提升视觉-语言模型的效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 模型剪枝 强化学习 组相对重要性 计算效率 多模态学习 离散优化
📋 核心要点
- 视觉-语言模型处理大量视觉tokens导致计算开销巨大,现有基于连续梯度松弛的剪枝方法易陷入局部最优。
- GRIP-VLM将剪枝建模为马尔可夫决策过程,利用强化学习直接探索离散选择空间,避免连续梯度近似。
- 实验表明,GRIP-VLM在多种多模态基准测试中优于现有方法,在保证精度的前提下,推理速度提升高达15%。
📝 摘要(中文)
视觉-语言模型(VLM)处理大量视觉tokens会产生巨大的计算开销。现有的训练感知剪枝方法试图选择性地丢弃冗余tokens,但它们主要依赖于连续梯度松弛。然而,视觉token剪枝本质上是一个离散、非凸的组合问题;因此,这些连续近似经常将优化困在次优局部最小值中,尤其是在激进的压缩预算下。为了克服这个根本瓶颈,我们提出了GRIP-VLM,一个由强化学习驱动的组相对重要性剪枝框架。GRIP-VLM没有依赖于平滑梯度假设,而是将剪枝形式化为一个马尔可夫决策过程,采用以监督预热为基础的组相对策略优化(GRPO)范式,直接探索离散选择空间。结合预算感知评分器,我们的轻量级agent动态评估每个token的重要性,并适应任意压缩比,而无需重新训练。在各种多模态基准上的大量实验表明,GRIP-VLM始终优于启发式和监督学习基线,实现了卓越的帕累托前沿,并在相同精度下提供了高达15%的推理加速。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型中由于大量视觉tokens带来的计算开销过大的问题。现有基于连续梯度松弛的剪枝方法在处理离散的token选择问题时,容易陷入局部最优解,尤其是在高压缩率下,导致性能下降。
核心思路:论文的核心思路是将视觉token的剪枝过程建模为一个马尔可夫决策过程,并利用强化学习来训练一个agent,使其能够直接在离散的token选择空间中进行探索,从而避免了连续梯度近似带来的问题。通过组相对策略优化,agent能够更好地评估每个token的重要性,并根据预设的压缩预算进行剪枝。
技术框架:GRIP-VLM框架主要包含以下几个模块:1) 特征提取模块:提取视觉tokens的特征表示。2) 强化学习Agent:负责根据当前状态(tokens特征)选择要剪枝的tokens。3) 奖励函数:根据剪枝后的模型性能(例如,在下游任务上的准确率)和压缩率来计算奖励。4) 组相对策略优化(GRPO):用于训练强化学习agent,使其能够更好地探索离散选择空间。5) 预算感知评分器:动态评估每个token的重要性,并适应任意压缩比。
关键创新:GRIP-VLM的关键创新在于使用强化学习来直接解决离散的token剪枝问题,避免了传统方法中连续梯度近似带来的局部最优问题。此外,提出的组相对策略优化(GRPO)能够更好地指导agent进行探索,提高了剪枝的效率和性能。
关键设计:GRIP-VLM的关键设计包括:1) 状态表示:使用视觉tokens的特征表示作为agent的状态输入。2) 动作空间:定义为每个token是否被剪枝的二元选择。3) 奖励函数:综合考虑剪枝后的模型性能和压缩率,鼓励agent在保证性能的前提下尽可能地进行剪枝。4) 组相对策略优化(GRPO):通过监督预热和策略梯度优化相结合的方式,提高agent的训练效率和稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRIP-VLM在多个多模态基准测试中均优于现有的启发式和监督学习方法。例如,在相同精度下,GRIP-VLM能够实现高达15%的推理速度提升,并且在不同的压缩率下都表现出良好的性能。
🎯 应用场景
GRIP-VLM可应用于各种视觉-语言模型,尤其是在资源受限的设备上,例如移动设备和嵌入式系统。通过减少计算开销,可以提升VLM在这些设备上的部署效率,并扩展其在智能助手、自动驾驶、机器人等领域的应用。
📄 摘要(原文)
In Vision-Language Models (VLMs), processing a massive number of visual tokens incurs prohibitive computational overhead. While recent training-aware pruning methods attempt to selectively discard redundant tokens, they largely rely on continuous-gradient relaxations. However, visual token pruning is inherently a discrete, non-convex combinatorial problem; consequently, these continuous approximations frequently trap the optimization in sub-optimal local minima, especially under aggressive compression budgets. To overcome this fundamental bottleneck, we propose GRIP-VLM, a Group-Relative Importance Pruning framework driven by Reinforcement Learning. Rather than relying on smooth-gradient assumptions, GRIP-VLM formulates pruning as a Markov Decision Process, employing a Group Relative Policy Optimization (GRPO) paradigm anchored by supervised warm-up to directly explore the discrete selection space. Integrated with a budget-aware scorer, our lightweight agent dynamically evaluates per-token importance and adapts to arbitrary compression ratios without retraining. Extensive experiments across diverse multimodal benchmarks demonstrate that GRIP-VLM consistently outperforms heuristic and supervised-learning baselines, achieving a superior Pareto frontier and delivering up to a 15\% inference speedup at equal accuracy.