FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models

作者: Kaitong Cai, Jusheng Zhang, Jing Yang, Yijia Fan, Pengtao Xie, Jian Wang, Keze Wang

分类: cs.CV

发布日期: 2025-12-23

备注: Under submission

💡 一句话要点

FlashVLM：文本引导的视觉Token选择，提升大模型多模态效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 Token选择 跨模态相似性 模型压缩 效率优化

📋 核心要点

现有VLM处理大量视觉tokens导致计算冗余，且token缩减方法忽略文本查询或依赖不稳定的注意力图。
FlashVLM通过计算图像token与文本嵌入的跨模态相似性，动态选择与查询相关的视觉tokens。
实验表明，FlashVLM在大幅压缩视觉tokens的同时，性能超越未剪枝基线，并保持鲁棒性和泛化能力。

📝 摘要（中文）

大型视觉-语言模型(VLMs)通常处理每个图像或视频帧的数百甚至数千个视觉token，导致二次方级别的注意力计算成本和显著的冗余。现有的token缩减方法通常忽略文本查询或依赖于深度注意力图，而深度注意力图在激进剪枝下不稳定，导致语义对齐性能下降。本文提出FlashVLM，一个文本引导的视觉token选择框架，可以动态地调整视觉输入以适应查询。FlashVLM不依赖于噪声大的注意力权重，而是在语言模型空间中计算投影图像token和归一化文本嵌入之间的显式跨模态相似性。这种外部相关性与内在视觉显著性融合，使用对数域加权和温度控制锐化。此外，多样性保持分区保留了一个最小但具有代表性的背景token集合，以维持全局上下文。在相同的token预算和评估协议下，FlashVLM实现了超越无损的压缩，在LLaVA 1.5上剪枝高达77.8%的视觉token的同时，略微超过了未剪枝的基线，并且在压缩94.4%的情况下，仍保持92.8%的准确率。在14个图像和视频基准上的大量实验表明，FlashVLM在提供最先进的效率-性能权衡的同时，保持了在主流VLM中的强大鲁棒性和泛化能力。

🔬 方法详解

问题定义：现有的大型视觉语言模型（VLMs）在处理图像和视频时，需要处理大量的视觉tokens，这导致了计算资源的浪费，特别是注意力机制的计算复杂度是token数量的平方级别。现有的token缩减方法要么忽略了文本查询，要么依赖于深度学习模型中的注意力图。然而，注意力图在进行激进的token剪枝时往往不稳定，这会损害视觉和语言之间的语义对齐，从而降低模型的性能。

核心思路：FlashVLM的核心思路是根据文本查询动态地选择视觉tokens。它不依赖于不稳定的注意力权重，而是显式地计算图像tokens和文本嵌入之间的跨模态相似性。通过这种方式，模型能够关注与文本查询最相关的视觉信息，从而减少冗余计算并提高效率。此外，FlashVLM还保留了一小部分具有代表性的背景tokens，以维持全局上下文信息。

技术框架：FlashVLM的整体框架包括以下几个主要步骤：1) 图像tokens的提取和投影；2) 文本嵌入的提取和归一化；3) 计算图像tokens和文本嵌入之间的跨模态相似性；4) 融合跨模态相似性和视觉显著性，得到每个token的重要性得分；5) 使用多样性保持分区策略选择最终的tokens集合。

关键创新：FlashVLM的关键创新在于它使用显式的跨模态相似性来指导视觉token的选择，而不是依赖于深度学习模型中隐含的注意力权重。这种方法更加稳定和可靠，尤其是在进行激进的token剪枝时。此外，FlashVLM还引入了多样性保持分区策略，以确保选择的tokens集合能够覆盖图像的全局上下文。

关键设计：FlashVLM使用对数域加权和温度控制锐化来融合跨模态相似性和视觉显著性。对数域加权可以平衡两种信息源的贡献，而温度控制锐化可以增强重要tokens的得分，从而提高选择的准确性。多样性保持分区策略使用k-means聚类算法将图像tokens划分为多个簇，并从每个簇中选择一个代表性的token，以确保选择的tokens集合具有多样性。

🖼️ 关键图片

📊 实验亮点

FlashVLM在LLaVA 1.5上实现了显著的性能提升。在剪枝高达77.8%的视觉token的同时，性能略微超过了未剪枝的基线。即使在压缩94.4%的情况下，仍保持92.8%的准确率。在14个图像和视频基准上的大量实验表明，FlashVLM在效率和性能之间取得了最先进的平衡。

🎯 应用场景

FlashVLM具有广泛的应用前景，包括但不限于：高效的图像和视频理解、移动设备上的视觉语言任务、低带宽环境下的多模态信息检索、以及需要快速响应的实时视觉语言应用。通过减少计算冗余，FlashVLM可以显著降低VLM的部署成本和延迟，使其更易于在资源受限的环境中使用。

📄 摘要（原文）

Large vision-language models (VLMs) typically process hundreds or thousands of visual tokens per image or video frame, incurring quadratic attention cost and substantial redundancy. Existing token reduction methods often ignore the textual query or rely on deep attention maps, whose instability under aggressive pruning leads to degraded semantic alignment. We propose FlashVLM, a text guided visual token selection framework that dynamically adapts visual inputs to the query. Instead of relying on noisy attention weights, FlashVLM computes an explicit cross modal similarity between projected image tokens and normalized text embeddings in the language model space. This extrinsic relevance is fused with intrinsic visual saliency using log domain weighting and temperature controlled sharpening. In addition, a diversity preserving partition retains a minimal yet representative set of background tokens to maintain global context. Under identical token budgets and evaluation protocols, FlashVLM achieves beyond lossless compression, slightly surpassing the unpruned baseline while pruning up to 77.8 percent of visual tokens on LLaVA 1.5, and maintaining 92.8 percent accuracy even under 94.4 percent compression. Extensive experiments on 14 image and video benchmarks demonstrate that FlashVLM delivers state of the art efficiency performance trade offs while maintaining strong robustness and generalization across mainstream VLMs.

FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理