Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding

📄 arXiv: 2604.12358v1 📥 PDF

作者: Jiwan Kim, Kibum Kim, Wonjoong Kim, Byung-Kwan Lee, Chanyoung Park

分类: cs.CV

发布日期: 2026-04-14

备注: Preprint, Project : https://ptkjw1997.github.io/DSTP-page/


💡 一句话要点

提出DSTP框架,解决MLLM解码过程中视觉token剪枝在复杂推理任务中性能下降问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉token剪枝 多模态大语言模型 视觉推理 信息转移 解码阶段

📋 核心要点

  1. 现有视觉token剪枝方法在复杂视觉推理任务中表现不佳,存在泛化性问题。
  2. 提出DSTP框架,通过在解码阶段对视觉token进行对齐,解决信息转移问题。
  3. 实验表明,DSTP能有效提升剪枝方法在复杂推理任务中的性能,且计算开销小。

📝 摘要(中文)

视觉token剪枝旨在处理多模态大语言模型中大量的视觉token。然而,我们观察到,现有的剪枝方法在简单的视觉理解任务中表现可靠,但在复杂的视觉推理任务中难以有效泛化,这是先前研究中未充分探索的关键差距。通过系统分析,我们发现解码过程中相关的视觉信息转移(RVIS)是导致失败的主要原因。为了解决这个问题,我们提出了解码阶段感知转移的token剪枝(DSTP),这是一个无需训练的附加框架,使现有的剪枝方法能够在解码阶段将视觉token与不断变化的推理需求对齐。大量实验表明,DSTP显著减轻了剪枝方法在复杂推理任务中的性能下降,同时在视觉理解基准测试中也始终产生性能提升。此外,DSTP在各种最先进的架构中都表现出有效性,突出了其通用性和效率,且计算开销极小。

🔬 方法详解

问题定义:现有的视觉token剪枝方法在多模态大语言模型中,虽然能有效处理视觉token数量,但在复杂视觉推理任务中性能显著下降。这是因为在解码过程中,模型关注的视觉信息会发生转移,而静态的剪枝策略无法适应这种变化,导致关键视觉信息被错误地剪除。现有方法未能充分考虑解码阶段视觉信息的相关性变化,导致剪枝策略在复杂推理任务中失效。

核心思路:DSTP的核心思路是在解码阶段动态地调整视觉token的重要性评估,使其与当前解码步骤的推理需求相匹配。通过感知解码过程中视觉信息相关性的转移,DSTP能够保留对当前推理步骤至关重要的视觉token,从而避免关键信息的丢失,提高复杂推理任务的性能。

技术框架:DSTP是一个训练无关的附加框架,可以集成到现有的视觉token剪枝方法中。其主要流程是在解码的每个步骤,首先利用当前解码状态(例如,语言模型的隐藏状态)来评估每个视觉token的重要性。然后,根据评估结果动态地调整剪枝策略,保留重要的视觉token,并剪除不相关的token。这个过程在解码的每个步骤重复进行,以适应不断变化的推理需求。

关键创新:DSTP的关键创新在于其解码阶段的动态token重要性评估机制。与静态剪枝方法不同,DSTP能够根据解码过程中的上下文信息,自适应地调整视觉token的保留策略。这种动态调整机制使得DSTP能够更好地应对复杂推理任务中视觉信息相关性的转移,从而提高剪枝方法的性能。

关键设计:DSTP的关键设计包括:1)使用语言模型的隐藏状态来评估视觉token的重要性,这使得重要性评估能够感知解码过程中的上下文信息。2)采用无需训练的方式,避免了额外的训练成本,并且易于集成到现有的剪枝方法中。3)计算开销极小,不会显著增加模型的推理时间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSTP能够显著减轻剪枝方法在复杂推理任务中的性能下降,例如在某些视觉推理基准测试中,性能提升高达10%以上。此外,DSTP在视觉理解任务中也表现出一致的性能提升。DSTP在多种最先进的架构中都表现出有效性,证明了其通用性和鲁棒性。重要的是,DSTP的计算开销极小,使其易于部署到实际应用中。

🎯 应用场景

该研究成果可应用于各种需要复杂视觉推理的多模态大语言模型应用场景,例如视觉问答、图像描述、视觉导航等。通过提高模型在复杂推理任务中的性能,可以提升用户体验,并扩展多模态大语言模型的应用范围。例如,在自动驾驶领域,可以提升模型对复杂交通场景的理解能力,从而提高驾驶安全性。

📄 摘要(原文)

Recently, visual token pruning has been studied to handle the vast number of visual tokens in Multimodal Large Language Models. However, we observe that while existing pruning methods perform reliably on simple visual understanding, they struggle to effectively generalize to complex visual reasoning tasks, a critical gap underexplored in previous studies. Through a systematic analysis, we identify Relevant Visual Information Shift (RVIS) during decoding as the primary failure driver. To address this, we propose Decoding-stage Shift-aware Token Pruning (DSTP), a training-free add-on framework that enables existing pruning methods to align visual tokens with shifting reasoning requirements during the decoding stage. Extensive experiments demonstrate that DSTP significantly mitigates performance degradation of pruning methods in complex reasoning tasks, while consistently yielding performance gains even across visual understanding benchmarks. Furthermore, DSTP demonstrates effectiveness across diverse state-of-the-art architectures, highlighting its generalizability and efficiency with minimal computational overhead.