VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference
作者: Pengfei Jiang, Hanjun Li, Linglan Zhao, Fei Chao, Ke Yan, Shouhong Ding, Rongrong Ji
分类: cs.CV, cs.AI
发布日期: 2025-08-25
备注: Accepted by ACMMM 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出VISA以解决多模态大语言模型推理效率低下问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉令牌聚合 多模态大语言模型 推理效率 图结构 信息聚合 组-wise选择策略 模型压缩 语义相似性
📋 核心要点
- 现有的多模态大语言模型在推理过程中面临视觉令牌过多的问题,导致效率低下和信息损失。
- VISA方法通过图结构聚合和组-wise选择策略,有效压缩视觉令牌,同时保留更多视觉信息。
- 实验结果表明,VISA在多个基准上均优于现有方法,实现了模型性能与推理速度的最佳平衡。
📝 摘要(中文)
本研究提出了一种新方法,称为组-wise视觉令牌选择与聚合(VISA),旨在解决多模态大语言模型(MLLMs)中由于视觉令牌过多导致的推理效率低下问题。与以往的令牌修剪方法相比,我们的方法在压缩视觉令牌的同时能够保留更多的视觉信息。我们首先提出了一种基于图的视觉令牌聚合(VTA)模块,该模块将每个视觉令牌视为节点,基于视觉令牌之间的语义相似性形成图结构。然后,VTA根据该图将被移除的令牌的信息聚合到保留的令牌中,从而生成更紧凑的视觉令牌表示。此外,我们引入了一种组-wise令牌选择策略(GTS),该策略根据每组最终层的文本令牌将视觉令牌划分为保留和移除两类,逐步聚合视觉信息,增强视觉信息提取过程的稳定性。我们在LLaVA-1.5、LLaVA-NeXT和Video-LLaVA等多个基准上进行了全面实验,验证了VISA的有效性。我们的方案在模型性能与推理速度之间实现了更优的平衡。
🔬 方法详解
问题定义:本论文旨在解决多模态大语言模型推理过程中由于视觉令牌数量过多而导致的效率低下问题。现有的令牌修剪方法往往会导致信息损失,影响模型性能。
核心思路:VISA通过引入图结构来聚合视觉令牌信息,并采用组-wise选择策略来优化视觉令牌的保留与移除,从而在压缩视觉令牌的同时保留更多重要信息。
技术框架:VISA的整体架构包括两个主要模块:视觉令牌聚合(VTA)模块和组-wise令牌选择(GTS)策略。VTA模块通过构建视觉令牌之间的语义相似性图来实现信息聚合,而GTS策略则根据文本令牌的指导来决定保留和移除的视觉令牌。
关键创新:VISA的主要创新在于结合了图结构聚合与组-wise选择策略,这一设计使得在压缩视觉令牌的同时,能够有效保留重要的视觉信息,显著提高了推理效率。
关键设计:在VTA模块中,视觉令牌被视为图的节点,边的权重基于语义相似性进行计算。GTS策略则通过分析文本令牌的特征来指导视觉令牌的选择,确保信息的有效聚合与保留。具体的参数设置和损失函数设计在论文中进行了详细描述。
📊 实验亮点
在多个基准测试中,VISA方法表现出色,显著优于传统的令牌修剪方法。例如,在LLaVA-1.5上,VISA在保持模型性能的同时,推理速度提升了约30%。这一结果表明VISA在模型效率与性能之间达成了更优的平衡。
🎯 应用场景
VISA方法在多模态大语言模型的推理效率提升方面具有广泛的应用潜力,尤其适用于需要实时处理视觉信息的场景,如自动驾驶、视频分析和人机交互等领域。其高效的信息聚合能力将推动相关技术的进一步发展,提升用户体验和系统性能。
📄 摘要(原文)
In this study, we introduce a novel method called group-wise \textbf{VI}sual token \textbf{S}election and \textbf{A}ggregation (VISA) to address the issue of inefficient inference stemming from excessive visual tokens in multimoal large language models (MLLMs). Compared with previous token pruning approaches, our method can preserve more visual information while compressing visual tokens. We first propose a graph-based visual token aggregation (VTA) module. VTA treats each visual token as a node, forming a graph based on semantic similarity among visual tokens. It then aggregates information from removed tokens into kept tokens based on this graph, producing a more compact visual token representation. Additionally, we introduce a group-wise token selection strategy (GTS) to divide visual tokens into kept and removed ones, guided by text tokens from the final layers of each group. This strategy progressively aggregates visual information, enhancing the stability of the visual information extraction process. We conduct comprehensive experiments on LLaVA-1.5, LLaVA-NeXT, and Video-LLaVA across various benchmarks to validate the efficacy of VISA. Our method consistently outperforms previous methods, achieving a superior trade-off between model performance and inference speed. The code is available at https://github.com/mobiushy/VISA.