STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference

作者: Yichen Guo, Hanze Li, Zonghao Zhang, Jinhao You, Kai Tang, Xiande Huang

分类: cs.LG, cs.CV

发布日期: 2025-05-18

💡 一句话要点

提出STAR：一种阶段式注意力引导的Token缩减方法，用于高效的大型视觉-语言模型推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 Token剪枝 注意力机制 模型加速 高效推理

📋 核心要点

现有token剪枝方法通常采用单阶段策略，忽略了模型中更广泛的信息流，导致高剪枝率下性能下降。
STAR提出一种两阶段注意力引导的token缩减框架，早期阶段去除冗余低级特征，后期阶段丢弃任务无关token。
实验表明，STAR在多个LVLM架构和基准测试上实现了加速，同时保持甚至提高了性能。

📝 摘要（中文）

大型视觉-语言模型(LVLMs)利用丰富的视觉token表示在多模态任务上取得了强大的性能，但这些token也带来了显著的推理计算开销。现有的免训练token剪枝方法通常采用单阶段策略，要么关注视觉自注意力，要么关注视觉-文本交叉注意力。然而，这种局部视角通常忽略了模型中更广泛的信息流，导致性能显著下降，尤其是在高剪枝率下。本文提出STAR(Stage-wise Attention-guided token Reduction)，一个免训练、即插即用的框架，从全局角度进行token剪枝。STAR不是在单个点进行剪枝，而是在两个互补的阶段执行注意力引导的缩减：一个基于视觉自注意力的早期阶段剪枝，以去除冗余的低级特征；以及一个由跨模态注意力引导的后期阶段剪枝，以丢弃与任务无关的token。这种整体方法使STAR能够在显著降低计算成本的同时，更好地保留任务关键信息。在多个LVLM架构和基准测试上的大量实验表明，STAR实现了强大的加速，同时保持了可比的性能，在某些情况下甚至提高了性能。

🔬 方法详解

问题定义：大型视觉-语言模型(LVLMs)在多模态任务中表现出色，但推理过程中的计算开销巨大。现有的token剪枝方法通常采用单阶段策略，要么只关注视觉自注意力，要么只关注视觉-文本交叉注意力。这种局部视角忽略了模型整体的信息流动，导致在高剪枝率下性能显著下降。因此，如何全局地、高效地进行token剪枝，同时保持甚至提升模型性能，是一个亟待解决的问题。

核心思路：STAR的核心思路是从全局视角出发，分阶段进行token缩减。首先，利用视觉自注意力去除冗余的低级视觉特征，降低计算量。然后，利用跨模态注意力，去除与当前任务无关的token，进一步提升效率。通过这种分阶段、全局化的策略，STAR能够在保证关键信息不丢失的前提下，实现高效的token剪枝。

技术框架：STAR框架包含两个主要阶段：早期阶段的视觉自注意力引导剪枝和后期阶段的跨模态注意力引导剪枝。在早期阶段，计算视觉token之间的自注意力权重，并根据权重的重要性对token进行排序，去除低权重的token。在后期阶段，计算视觉token与文本token之间的跨模态注意力权重，同样根据权重的重要性对视觉token进行排序和剪枝。这两个阶段是互补的，共同作用以实现高效的token缩减。

关键创新：STAR的关键创新在于其两阶段的注意力引导剪枝策略。与传统的单阶段剪枝方法相比，STAR能够更全面地考虑模型中的信息流动，从而更好地保留任务关键信息。此外，STAR是一种免训练的、即插即用的框架，无需额外的训练成本，可以方便地应用于各种LVLM架构。

关键设计：在早期阶段，使用视觉Transformer层的自注意力机制计算token的重要性得分。具体来说，将每个token的注意力权重进行平均，得到该token的重要性得分。在后期阶段，使用跨模态Transformer层的交叉注意力机制计算token的重要性得分。同样，将每个token的注意力权重进行平均，得到该token的重要性得分。然后，根据预设的剪枝比例，去除重要性得分较低的token。剪枝比例是一个关键的超参数，需要根据具体的任务和模型进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，STAR在多个LVLM架构和基准测试上实现了显著的加速，同时保持了可比的性能，在某些情况下甚至提高了性能。例如，在XXX模型上，STAR实现了XX%的加速，同时性能提升了X%。与现有的单阶段剪枝方法相比，STAR在高剪枝率下表现出更强的鲁棒性。

🎯 应用场景

STAR具有广泛的应用前景，可以应用于各种需要高效推理的大型视觉-语言模型，例如图像描述、视觉问答、视觉推理等。通过降低计算成本，STAR可以使这些模型更容易部署在资源受限的设备上，例如移动设备和嵌入式系统。此外，STAR还可以加速模型的训练过程，提高开发效率。

📄 摘要（原文）

Although large vision-language models (LVLMs) leverage rich visual token representations to achieve strong performance on multimodal tasks, these tokens also introduce significant computational overhead during inference. Existing training-free token pruning methods typically adopt a single-stage strategy, focusing either on visual self-attention or visual-textual cross-attention. However, such localized perspectives often overlook the broader information flow across the model, leading to substantial performance degradation, especially under high pruning ratios. In this work, we propose STAR (Stage-wise Attention-guided token Reduction), a training-free, plug-and-play framework that approaches token pruning from a global perspective. Instead of pruning at a single point, STAR performs attention-guided reduction in two complementary stages: an early-stage pruning based on visual self-attention to remove redundant low-level features, and a later-stage pruning guided by cross-modal attention to discard task-irrelevant tokens. This holistic approach allows STAR to significantly reduce computational cost while better preserving task-critical information. Extensive experiments across multiple LVLM architectures and benchmarks show that STAR achieves strong acceleration while maintaining comparable, and in some cases even improved performance.

STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理