Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

作者: Zhihang Lin, Mingbao Lin, Luxi Lin, Rongrong Ji

分类: cs.CV, cs.AI

发布日期: 2024-05-09 (更新: 2025-01-25)

💡 一句话要点

提出视觉令牌撤回(VTW)模块，加速多模态大语言模型推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉令牌撤回 快速推理 注意力机制 信息迁移

📋 核心要点

MLLMs推理计算量大，源于参数规模和视觉信息表示的额外令牌。
VTW通过在深层撤回不必要的视觉令牌，减少计算开销。
实验表明，VTW能在保持性能的同时，降低超过40%的计算开销。

📝 摘要（中文）

多模态大语言模型(MLLMs)由于其庞大的参数量和视觉信息表示所需的额外输入令牌，在推理时需要大量的计算资源。本文提出了一种即插即用的模块——视觉令牌撤回(VTW)，以加速MLLMs的推理过程。我们的方法受到两个有趣现象的启发：(1)LLMs中普遍存在的注意力沉没现象也存在于MLLMs中，表明初始令牌和最近的令牌获得了大部分注意力，而中间的视觉令牌在深层中获得的注意力最少；(2)信息迁移的存在，这意味着视觉信息在MLLMs的前几层中被转移到后续的文本令牌。根据我们的发现，我们得出结论，视觉令牌在MLLMs的深层中是不必要的。因此，我们有策略地在特定层撤回它们，使只有文本令牌参与后续层。为了确定VTW的理想层，我们首先分析一组有限的小型数据集，并选择满足Kullback-Leibler散度标准的第一个层。我们的VTW方法可以在保持性能的同时，将各种多模态任务的计算开销降低40%以上。

🔬 方法详解

问题定义：多模态大语言模型(MLLMs)在推理时需要处理大量的视觉和文本信息，导致计算成本很高。现有的方法通常关注于模型压缩或加速算法，但很少关注输入令牌的冗余性。视觉令牌作为视觉信息的载体，在模型的深层可能变得冗余，从而浪费计算资源。

核心思路：本文的核心思路是，在MLLMs的深层，视觉令牌的重要性逐渐降低，可以安全地移除而不会显著影响性能。这是基于两个观察：一是注意力沉没现象，即深层网络更关注初始和最近的令牌；二是信息迁移现象，即视觉信息在前几层已经迁移到文本令牌。因此，通过在适当的层移除视觉令牌，可以减少后续层的计算量。

技术框架：VTW是一个即插即用的模块，可以添加到现有的MLLMs中。其主要流程包括：1) 前向传播，直到达到预先设定的撤回层；2) 在该层移除视觉令牌；3) 继续前向传播，只处理文本令牌。为了确定最佳的撤回层，作者使用Kullback-Leibler散度(KL散度)来衡量不同层之间的信息损失，并选择满足KL散度标准的第一个层。

关键创新：VTW的关键创新在于它利用了MLLMs中视觉令牌的冗余性，通过有策略地撤回这些令牌来加速推理。与传统的模型压缩或加速方法不同，VTW直接减少了输入令牌的数量，从而降低了计算复杂度。此外，VTW是一种即插即用的模块，可以很容易地集成到现有的MLLMs中。

关键设计：VTW的关键设计包括：1) 撤回层的选择：作者使用KL散度来衡量不同层之间的信息损失，并选择满足KL散度标准的第一个层作为撤回层。具体来说，他们计算了相邻两层输出的注意力分布之间的KL散度，并选择KL散度低于某个阈值的第一个层。2) 撤回策略：VTW直接移除视觉令牌，只保留文本令牌。这种策略简单有效，可以显著减少计算量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VTW能够在保持性能的同时，将各种多模态任务的计算开销降低40%以上。例如，在图像描述任务中，VTW在不损失精度的情况下，显著减少了推理时间。此外，VTW的即插即用特性使其易于集成到不同的MLLMs中，具有广泛的适用性。

🎯 应用场景

VTW可应用于各种需要快速推理的多模态任务，如图像描述、视觉问答、视频理解等。该方法能够降低计算成本，提高推理速度，尤其适用于资源受限的设备或需要实时响应的场景。未来，VTW可以与其他模型压缩和加速技术相结合，进一步提升MLLMs的效率。

📄 摘要（原文）

Multimodal large language models (MLLMs) demand considerable computations for inference due to the extensive parameters and the additional input tokens needed for visual information representation. Herein, we introduce Visual Tokens Withdrawal (VTW), a plug-and-play module to boost MLLMs for rapid inference. Our approach is inspired by two intriguing phenomena we have observed: (1) the attention sink phenomenon that is prevalent in LLMs also persists in MLLMs, suggesting that initial tokens and nearest tokens receive the majority of attention, while middle vision tokens garner minimal attention in deep layers; (2) the presence of information migration, which implies that visual information is transferred to subsequent text tokens within the first few layers of MLLMs. As per our findings, we conclude that vision tokens are unnecessary in the deep layers of MLLMs. Thus, we strategically withdraw them at a certain layer, enabling only text tokens to engage in subsequent layers. To pinpoint the ideal layer for VTW, we initially analyze a limited set of tiny datasets and choose the first layer that meets the Kullback-Leibler divergence criterion. Our VTW approach can cut computational overhead by over 40\% across diverse multimodal tasks while maintaining performance.

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理