VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning
作者: Hengbo Xu, Shengjie Jin, Yanbiao Ma, Zhiwu Lu
分类: cs.CV
发布日期: 2026-05-29
备注: Accepted at ICML 2026
💡 一句话要点
VisionPulse:提出动态视觉稀疏化方法,提升多模态推理效率。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 视觉稀疏化 动态剪枝 大型语言模型 注意力机制
📋 核心要点
- 现有LMMs在推理时面临高开销,预填充阶段的静态视觉token剪枝策略忽略了视觉证据的动态变化。
- VisionPulse通过计算轻量级视觉注意力质量,动态估计每步的视觉token保留预算,实现逐步剪枝。
- 实验表明,VisionPulse在显著减少视觉tokens数量的同时,有效缩短推理轨迹,并保持了模型准确性。
📝 摘要(中文)
大型多模态模型(LMMs)的快速发展使得推理时开销成为实际部署的关键瓶颈。现有方法通常在预填充阶段剪枝视觉tokens,假设所需的视觉证据在推理过程中保持静态。然而,我们通过实验证明,视觉证据与步骤强相关:在每个解码步骤中,只有一小部分视觉tokens是关键的,并且关键集合随着推理过程而演变。此外,我们发现了一个耦合瓶颈,即冗余的视觉上下文会将模型引导到与查询无关的区域,从而延长推理轨迹。基于这些观察,我们提出了VisionPulse,一种在推理过程中逐步剪枝视觉tokens的框架。VisionPulse计算轻量级的视觉注意力质量,以估计逐步保留预算,因为它与LMMs的有效视觉token使用量呈强正相关,并在该预算下仅保留最关键的tokens。通过在推理过程中强制视觉稀疏性,VisionPulse在保留相关视觉证据的同时过滤冗余视觉上下文,从而自然地缩短推理轨迹。大量实验表明,VisionPulse每步仅保留5%的视觉tokens,推理轨迹缩短了11.2%,同时几乎保持了准确性不变。
🔬 方法详解
问题定义:现有大型多模态模型在推理时计算开销巨大,严重阻碍了实际部署。现有的视觉token剪枝方法通常在预填充阶段进行,属于静态剪枝,无法适应推理过程中视觉证据的动态变化,导致模型效率低下,甚至影响推理准确性。冗余的视觉信息还会误导模型。
核心思路:VisionPulse的核心思想是根据推理步骤动态地调整视觉tokens的数量,只保留当前步骤最相关的视觉信息。通过观察发现,模型在每个推理步骤中实际使用的视觉tokens是稀疏且变化的,因此可以通过动态剪枝来减少计算量,同时避免引入过多无关信息。
技术框架:VisionPulse框架主要包含以下几个步骤:1) 输入图像经过视觉编码器得到初始的视觉tokens;2) 在每个解码步骤,计算一个轻量级的视觉注意力质量(Visual Attention Mass),用于评估每个视觉token的重要性;3) 根据计算出的注意力质量,确定当前步骤的视觉token保留预算;4) 根据预算,保留最重要的视觉tokens,并丢弃其余tokens;5) 将保留的视觉tokens输入到LLM进行推理。
关键创新:VisionPulse的关键创新在于提出了动态视觉稀疏化的概念,并设计了一种轻量级的视觉注意力质量计算方法,用于评估视觉tokens的重要性。与现有静态剪枝方法相比,VisionPulse能够根据推理步骤动态地调整视觉tokens的数量,从而更有效地利用计算资源,并避免引入过多无关信息。此外,通过减少推理步骤,可以有效避免模型被无关信息误导。
关键设计:视觉注意力质量的计算采用轻量级网络结构,以减少额外的计算开销。保留预算的确定基于注意力质量与有效视觉token使用量之间的正相关关系。具体实现细节包括注意力质量的计算方式、保留预算的确定策略,以及如何将剪枝后的视觉tokens输入到LLM中。损失函数的设计目标是保证剪枝后的模型性能不下降,同时鼓励模型选择更少的视觉tokens。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VisionPulse在保持几乎不变的准确率下,每步仅需保留5%的视觉tokens,同时推理轨迹缩短了11.2%。这表明VisionPulse能够有效地减少计算量,提高推理效率。与其他视觉token剪枝方法相比,VisionPulse在效率和准确率之间取得了更好的平衡。
🎯 应用场景
VisionPulse可应用于各种需要高效多模态推理的场景,例如移动设备上的智能助手、自动驾驶系统中的视觉理解、以及需要快速响应的机器人应用。该方法能够显著降低计算成本,提高推理速度,从而使得LMMs能够在资源受限的环境中部署,并实现更广泛的应用。
📄 摘要(原文)
With the rapid advancement of large multimodal models (LMMs), inference-time overhead has become a key bottleneck for real-world deployment. Existing methods typically prune visual tokens at prefill, assuming the required visual evidence remains static during reasoning. However, we empirically show that visual evidence is strongly step-dependent: only a sparse subset of visual tokens is critical at each decoding step, and the critical set evolves across reasoning. Furthermore, we identify a coupled bottleneck where redundant visual context can steer the model toward query-irrelevant regions, lengthening the reasoning trace. Guided by these insights, we propose VisionPulse, a step-wise visual token pruning framework during reasoning. VisionPulse computes a lightweight visual attention mass to estimate the step-wise retention budget by exploiting its strong positive correlation with LMMs' effective visual token usage and retain only the most critical tokens under this budget. By enforcing visual sparsity during reasoning, VisionPulse filters redundant visual context while preserving relevant visual evidence, shortening reasoning traces naturally. Extensive experiments show that VisionPulse only retains 5% of visual tokens per step with reasoning traces shortened by 11.2%, while keeping accuracy almost unchanged.