Window Token Concatenation for Efficient Visual Large Language Models

作者: Yifan Li, Wentao Bao, Botao Ye, Zhen Tan, Tianlong Chen, Huan Liu, Yu Kong

分类: cs.CV

发布日期: 2025-04-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出窗口令牌连接(WiCo)方法，高效压缩视觉大语言模型中的视觉令牌数量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉大语言模型 令牌压缩 滑动窗口 特征融合 视觉编码器微调 细粒度视觉理解 高效推理 多模态学习

📋 核心要点

现有VLLM模型视觉令牌数量庞大，导致计算成本高昂，推理效率低下，难以部署到资源受限的设备上。
提出窗口令牌连接（WiCo）方法，通过滑动窗口连接相邻视觉令牌，减少令牌数量，并微调视觉编码器以保持特征一致性。
实验表明，WiCo在粗粒度和细粒度视觉理解任务上均优于现有令牌缩减方法，有效提升了VLLM的效率和性能。

📝 摘要（中文）

为了有效减少视觉大语言模型（VLLM）中的视觉令牌数量，我们提出了一种名为窗口令牌连接（WiCo）的新方法。具体来说，我们采用滑动窗口来连接空间上相邻的视觉令牌。然而，直接连接这些令牌可能会将不同的令牌组合在一起，从而模糊一些精细的细节。为了解决这个挑战，我们建议微调视觉编码器的最后几层，以自适应地调整视觉令牌，鼓励同一窗口内的令牌表现出相似的特征。为了进一步提高在细粒度视觉理解任务上的性能，我们引入了WiCo+，它在LLM的后续层中分解视觉令牌。这种设计兼顾了LLM在细粒度视觉理解方面的大感知场优势，同时保持了少量视觉令牌以实现高效推理。我们基于LLaVA-1.5和Shikra在粗粒度和细粒度视觉理解任务上进行了广泛的实验，结果表明与现有的令牌缩减投影器相比，性能更好。代码已开源。

🔬 方法详解

问题定义：视觉大语言模型（VLLM）在处理图像时，通常需要将图像分割成大量的视觉令牌。这些令牌数量庞大，导致计算成本高昂，推理速度慢，限制了VLLM在资源受限设备上的应用。现有方法，如线性投影等，虽然可以减少令牌数量，但可能会损失重要的视觉信息，影响模型性能。

核心思路：WiCo的核心思路是通过连接空间上相邻的视觉令牌来减少令牌数量。具体来说，使用滑动窗口在图像特征图上滑动，将窗口内的令牌连接成一个令牌。为了避免连接不同特征的令牌导致信息损失，WiCo还引入了微调机制，使同一窗口内的令牌具有相似的特征。

技术框架：WiCo方法主要包含以下几个阶段：1. 图像经过视觉编码器提取特征。2. 使用滑动窗口在特征图上进行令牌连接，减少令牌数量。3. 微调视觉编码器的最后几层，使同一窗口内的令牌特征相似。4. 连接后的令牌输入到LLM进行后续处理。WiCo+在LLM的后续层中引入令牌分解，以增强细粒度视觉理解能力。

关键创新：WiCo的关键创新在于：1. 提出了一种简单有效的令牌连接方法，能够显著减少视觉令牌数量。2. 引入了微调机制，保证了令牌连接后视觉信息的完整性。3. WiCo+通过在LLM中进行令牌分解，进一步提升了细粒度视觉理解能力。与现有方法相比，WiCo在减少令牌数量的同时，能够更好地保持模型性能。

关键设计：滑动窗口的大小是一个关键参数，需要根据具体任务进行调整。微调视觉编码器的层数也需要仔细选择，以避免过度拟合。WiCo+中令牌分解的具体实现方式（例如，使用可学习的线性层）也会影响模型性能。损失函数的设计需要同时考虑令牌连接后的特征一致性和模型整体的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于LLaVA-1.5和Shikra，WiCo在粗粒度和细粒度视觉理解任务上均取得了显著的性能提升。例如，在某些任务上，WiCo的性能优于现有令牌缩减方法，同时显著减少了视觉令牌的数量。WiCo+进一步提升了细粒度视觉理解能力，表明了其在复杂视觉任务中的潜力。

🎯 应用场景

WiCo方法可以应用于各种需要高效视觉理解的场景，例如移动设备上的图像识别、视频监控、自动驾驶等。通过减少视觉令牌数量，WiCo可以降低计算成本，提高推理速度，使VLLM能够在资源受限的环境中部署和应用。未来，WiCo还可以与其他令牌压缩技术相结合，进一步提升VLLM的效率和性能。

📄 摘要（原文）

To effectively reduce the visual tokens in Visual Large Language Models (VLLMs), we propose a novel approach called Window Token Concatenation (WiCo). Specifically, we employ a sliding window to concatenate spatially adjacent visual tokens. However, directly concatenating these tokens may group diverse tokens into one, and thus obscure some fine details. To address this challenge, we propose fine-tuning the last few layers of the vision encoder to adaptively adjust the visual tokens, encouraging that those within the same window exhibit similar features. To further enhance the performance on fine-grained visual understanding tasks, we introduce WiCo+, which decomposes the visual tokens in later layers of the LLM. Such a design enjoys the merits of the large perception field of the LLM for fine-grained visual understanding while keeping a small number of visual tokens for efficient inference. We perform extensive experiments on both coarse- and fine-grained visual understanding tasks based on LLaVA-1.5 and Shikra, showing better performance compared with existing token reduction projectors. The code is available: https://github.com/JackYFL/WiCo.

Window Token Concatenation for Efficient Visual Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理