GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models

作者: Mingzhe Huang, Weijun Wang, Xin Ding, Liang Mi, Hao Wen, Yuanchun Li, Lichen Pang, Shansong Yang, Yunxin Liu, Ting Cao

分类: cs.CV, cs.AI

发布日期: 2026-05-13

备注: 10 pages, 11 figures

💡 一句话要点

提出GRIP-VLM，通过强化学习进行组相对重要性剪枝，提升视觉-语言模型的效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 模型剪枝 强化学习 组相对重要性 计算效率 多模态学习 离散优化

📋 核心要点

视觉-语言模型处理大量视觉tokens导致计算开销巨大，现有基于连续梯度松弛的剪枝方法易陷入局部最优。
GRIP-VLM将剪枝建模为马尔可夫决策过程，利用强化学习直接探索离散选择空间，避免连续梯度近似。
实验表明，GRIP-VLM在多种多模态基准测试中优于现有方法，在保证精度的前提下，推理速度提升高达15%。

📝 摘要（中文）

视觉-语言模型(VLM)处理大量视觉tokens会产生巨大的计算开销。现有的训练感知剪枝方法试图选择性地丢弃冗余tokens，但它们主要依赖于连续梯度松弛。然而，视觉token剪枝本质上是一个离散、非凸的组合问题；因此，这些连续近似经常将优化困在次优局部最小值中，尤其是在激进的压缩预算下。为了克服这个根本瓶颈，我们提出了GRIP-VLM，一个由强化学习驱动的组相对重要性剪枝框架。GRIP-VLM没有依赖于平滑梯度假设，而是将剪枝形式化为一个马尔可夫决策过程，采用以监督预热为基础的组相对策略优化(GRPO)范式，直接探索离散选择空间。结合预算感知评分器，我们的轻量级agent动态评估每个token的重要性，并适应任意压缩比，而无需重新训练。在各种多模态基准上的大量实验表明，GRIP-VLM始终优于启发式和监督学习基线，实现了卓越的帕累托前沿，并在相同精度下提供了高达15%的推理加速。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型中由于大量视觉tokens带来的计算开销过大的问题。现有基于连续梯度松弛的剪枝方法在处理离散的token选择问题时，容易陷入局部最优解，尤其是在高压缩率下，导致性能下降。

核心思路：论文的核心思路是将视觉token的剪枝过程建模为一个马尔可夫决策过程，并利用强化学习来训练一个agent，使其能够直接在离散的token选择空间中进行探索，从而避免了连续梯度近似带来的问题。通过组相对策略优化，agent能够更好地评估每个token的重要性，并根据预设的压缩预算进行剪枝。

技术框架：GRIP-VLM框架主要包含以下几个模块：1) 特征提取模块：提取视觉tokens的特征表示。2) 强化学习Agent：负责根据当前状态（tokens特征）选择要剪枝的tokens。3) 奖励函数：根据剪枝后的模型性能（例如，在下游任务上的准确率）和压缩率来计算奖励。4) 组相对策略优化(GRPO)：用于训练强化学习agent，使其能够更好地探索离散选择空间。5) 预算感知评分器：动态评估每个token的重要性，并适应任意压缩比。

关键创新：GRIP-VLM的关键创新在于使用强化学习来直接解决离散的token剪枝问题，避免了传统方法中连续梯度近似带来的局部最优问题。此外，提出的组相对策略优化(GRPO)能够更好地指导agent进行探索，提高了剪枝的效率和性能。

关键设计：GRIP-VLM的关键设计包括：1) 状态表示：使用视觉tokens的特征表示作为agent的状态输入。2) 动作空间：定义为每个token是否被剪枝的二元选择。3) 奖励函数：综合考虑剪枝后的模型性能和压缩率，鼓励agent在保证性能的前提下尽可能地进行剪枝。4) 组相对策略优化(GRPO)：通过监督预热和策略梯度优化相结合的方式，提高agent的训练效率和稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRIP-VLM在多个多模态基准测试中均优于现有的启发式和监督学习方法。例如，在相同精度下，GRIP-VLM能够实现高达15%的推理速度提升，并且在不同的压缩率下都表现出良好的性能。

🎯 应用场景

GRIP-VLM可应用于各种视觉-语言模型，尤其是在资源受限的设备上，例如移动设备和嵌入式系统。通过减少计算开销，可以提升VLM在这些设备上的部署效率，并扩展其在智能助手、自动驾驶、机器人等领域的应用。

📄 摘要（原文）

In Vision-Language Models (VLMs), processing a massive number of visual tokens incurs prohibitive computational overhead. While recent training-aware pruning methods attempt to selectively discard redundant tokens, they largely rely on continuous-gradient relaxations. However, visual token pruning is inherently a discrete, non-convex combinatorial problem; consequently, these continuous approximations frequently trap the optimization in sub-optimal local minima, especially under aggressive compression budgets. To overcome this fundamental bottleneck, we propose GRIP-VLM, a Group-Relative Importance Pruning framework driven by Reinforcement Learning. Rather than relying on smooth-gradient assumptions, GRIP-VLM formulates pruning as a Markov Decision Process, employing a Group Relative Policy Optimization (GRPO) paradigm anchored by supervised warm-up to directly explore the discrete selection space. Integrated with a budget-aware scorer, our lightweight agent dynamically evaluates per-token importance and adapts to arbitrary compression ratios without retraining. Extensive experiments across diverse multimodal benchmarks demonstrate that GRIP-VLM consistently outperforms heuristic and supervised-learning baselines, achieving a superior Pareto frontier and delivering up to a 15\% inference speedup at equal accuracy.

GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理