VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

📄 arXiv: 2508.05211v2 📥 PDF

作者: Sihan Yang, Runsen Xu, Chenhang Cui, Tai Wang, Dahua Lin, Jiangmiao Pang

分类: cs.CV

发布日期: 2025-08-07 (更新: 2025-09-11)

备注: Accepted by ICCV 2025


💡 一句话要点

VFlowOpt:视觉信息流引导的大模型Token剪枝框架,提升推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 Token剪枝 视觉信息流 模型优化 推理加速

📋 核心要点

  1. 现有LMMs视觉token冗余导致计算成本高昂,而现有剪枝方法过于简单,易造成性能大幅下降。
  2. VFlowOpt通过上下文相关性和信息熵计算token重要性,并采用渐进式剪枝与回收机制避免信息损失。
  3. 实验表明,VFlowOpt可在保持性能的同时,剪枝90%的视觉tokens,显著降低内存占用并加速推理。

📝 摘要(中文)

大型多模态模型(LMMs)通过利用大量视觉tokens来获取细粒度的视觉信息,从而在视觉-语言任务中表现出色,但这种token冗余导致了巨大的计算成本。以往的研究旨在减少推理过程中的视觉tokens,通常利用仅视觉tokens或视觉-语言tokens之间的注意力分数导出的重要性图来剪枝tokens,剪枝过程可能包含一个或多个阶段。尽管取得了一些进展,但剪枝框架和策略仍然过于简单且探索不足,通常会导致严重的性能下降。本文提出了VFlowOpt,一个token剪枝框架,引入了重要性图推导过程和一个带有回收机制的渐进式剪枝模块。其剪枝策略的超参数通过视觉信息流引导的方法进一步优化。具体来说,我们基于图像tokens的注意力导出的上下文相关性和patch级信息熵来计算其重要性图。然后,我们决定保留或剪枝哪些tokens,并将剪枝的tokens聚合为回收tokens,以避免潜在的信息丢失。最后,我们应用一种视觉信息流引导的方法,将LMM中的最后一个token视为文本-视觉交互的最具代表性的信号。该方法最小化了具有和不具有剪枝的LMM中token表示之间的差异,从而能够为不同的LMM定制卓越的剪枝策略。实验表明,VFlowOpt可以剪枝90%的视觉tokens,同时保持相当的性能,从而使KV-Cache内存减少89%,推理速度提高3.8倍。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)中视觉tokens的冗余问题,现有剪枝方法依赖简单的注意力机制,导致剪枝后性能显著下降,无法在计算效率和模型精度之间取得良好平衡。

核心思路:论文的核心思路是设计一个更智能的token剪枝框架,该框架不仅考虑tokens的重要性,还考虑了剪枝可能带来的信息损失。通过引入视觉信息流引导的优化方法,使得剪枝后的模型能够尽可能地保留原始模型的信息表达能力。

技术框架:VFlowOpt框架包含三个主要模块:1) 重要性图推导:基于注意力机制和patch级信息熵计算图像tokens的重要性。2) 渐进式剪枝与回收:逐步剪枝不重要的tokens,并将剪枝掉的tokens回收利用,以减少信息损失。3) 视觉信息流引导的优化:通过最小化剪枝前后LMM中token表示的差异,优化剪枝策略的超参数。

关键创新:该论文的关键创新在于:1) 结合上下文相关性和信息熵来评估token的重要性,更全面地反映了token对模型性能的贡献。2) 引入了token回收机制,有效缓解了剪枝带来的信息损失。3) 提出了视觉信息流引导的优化方法,能够针对不同的LMM定制最优的剪枝策略。

关键设计:在重要性图推导中,使用了注意力机制来衡量token之间的上下文相关性,并结合patch级信息熵来评估token所包含的信息量。在渐进式剪枝中,设计了回收率参数来控制回收的tokens数量。在视觉信息流引导的优化中,使用了KL散度等距离度量方法来衡量剪枝前后token表示的差异,并通过优化算法调整剪枝策略的超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VFlowOpt可以在剪枝90%的视觉tokens的同时,保持与原始模型相当的性能。具体来说,KV-Cache内存减少了89%,推理速度提高了3.8倍。该方法在多个视觉-语言任务上都取得了显著的性能提升,证明了其有效性和通用性。

🎯 应用场景

VFlowOpt可应用于各种视觉-语言任务,例如图像描述、视觉问答等。通过降低LMM的计算成本,可以将其部署在资源受限的设备上,例如移动设备和嵌入式系统。此外,该方法还可以加速LMM的训练过程,提高模型开发效率。

📄 摘要(原文)

Large Multimodal Models (LMMs) excel in visual-language tasks by leveraging numerous visual tokens for fine-grained visual information, but this token redundancy results in significant computational costs. Previous research aimed at reducing visual tokens during inference typically leverages importance maps derived from attention scores among vision-only tokens or vision-language tokens to prune tokens across one or multiple pruning stages. Despite this progress, pruning frameworks and strategies remain simplistic and insufficiently explored, often resulting in substantial performance degradation. In this paper, we propose VFlowOpt, a token pruning framework that introduces an importance map derivation process and a progressive pruning module with a recycling mechanism. The hyperparameters of its pruning strategy are further optimized by a visual information flow-guided method. Specifically, we compute an importance map for image tokens based on their attention-derived context relevance and patch-level information entropy. We then decide which tokens to retain or prune and aggregate the pruned ones as recycled tokens to avoid potential information loss. Finally, we apply a visual information flow-guided method that regards the last token in the LMM as the most representative signal of text-visual interactions. This method minimizes the discrepancy between token representations in LMMs with and without pruning, thereby enabling superior pruning strategies tailored to different LMMs. Experiments demonstrate that VFlowOpt can prune 90% of visual tokens while maintaining comparable performance, leading to an 89% reduction in KV-Cache memory and 3.8 times faster inference.