ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task

📄 arXiv: 2503.04444v1 📥 PDF

作者: Vittorio Pippi, Matthieu Guillaumin, Silvia Cascianelli, Rita Cucchiara, Maximilian Jaritz, Loris Bazzani

分类: cs.CV

发布日期: 2025-03-06


💡 一句话要点

ToFu:一种视觉令牌融合方法,用于提升多模态、多图像任务的效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉令牌压缩 多图像处理 大型语言模型 计算效率

📋 核心要点

  1. 现有方法在减少视觉令牌时依赖特定视觉编码器,需微调LLM,且仅限于单图像场景,限制了多图像任务的应用。
  2. ToFu通过融合冗余视觉令牌,保留独特令牌,合并相似令牌,实现了视觉编码器无关且免训练的令牌压缩。
  3. 实验表明,ToFu在 LLaVA-Interleave 和 ComPairs 基准测试中,提升了多图像任务的效率和性能。

📝 摘要(中文)

大型多模态模型(LMMs)是强大的工具,能够推理和理解超越文本和语言的多模态信息。尽管它们影响深远,但与单模态模型相比,LMMs的开发受到更高计算需求的阻碍。其中一个主要原因是编码视觉输入需要大量的令牌,这在多图像多模态任务中尤为明显。最近减少视觉令牌的方法依赖于视觉编码器架构,需要微调LLM以保持性能,并且只考虑单图像场景。为了解决这些限制,我们提出ToFu,一种视觉编码器无关、免训练的令牌融合策略,用于组合LMM中冗余的视觉令牌,以处理高分辨率、多图像任务。我们方法背后的核心直觉简单而有效:保留独特的令牌,同时合并相似的令牌。我们通过顺序检查视觉令牌,并决定是否将它们与其他令牌合并或保持为单独的实体来实现这一点。我们在成熟的LLaVA-Interleave Bench上验证了我们的方法,该基准涵盖了具有挑战性的多图像任务。此外,我们通过在一个新创建的基准ComPairs上测试它来将我们的方法推向极致,该基准侧重于多图像比较,其中大量的图像和视觉令牌被输入到LMM中。我们广泛的分析,考虑了几种LMM架构,证明了我们的方法在效率和性能提升方面的优势。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在处理多图像任务时,由于视觉输入需要大量tokens而导致计算成本过高的问题。现有方法通常依赖于特定的视觉编码器架构,需要对LLM进行微调以维持性能,并且大多只适用于单图像场景,无法有效处理多图像输入带来的tokens数量爆炸问题。

核心思路:ToFu的核心思路是在不影响模型性能的前提下,通过融合冗余的视觉tokens来减少总的tokens数量,从而降低计算成本。其关键在于区分并保留具有代表性的tokens,同时合并相似的tokens。这种方法旨在实现视觉编码器无关性,无需对LLM进行微调,并适用于多图像场景。

技术框架:ToFu 采用一种顺序检查和融合的策略。首先,对输入的视觉tokens进行排序或组织。然后,逐个检查每个token,并判断其是否应该与其他token合并。判断的依据是token之间的相似度,相似度高的token会被融合,而具有独特信息的token则会被保留。这个过程可以迭代进行,直到达到预期的tokens数量或满足其他停止条件。整个框架可以作为一个预处理步骤,在视觉编码器和LLM之间进行。

关键创新:ToFu 的关键创新在于其视觉编码器无关性和免训练特性。它不依赖于特定的视觉编码器架构,可以与各种LMMs集成。此外,它不需要对LLM进行额外的微调,从而降低了开发和部署的成本。通过自适应地融合冗余tokens,ToFu 能够有效地减少tokens数量,同时保持模型的性能。

关键设计:ToFu 的关键设计在于如何定义和计算tokens之间的相似度,以及如何确定融合的阈值。相似度可以使用余弦相似度、欧氏距离等度量方法来计算。融合阈值则需要根据具体的任务和数据集进行调整,以平衡tokens数量的减少和模型性能的保持。此外,还可以采用一些启发式规则来指导tokens的融合过程,例如优先融合相邻的tokens或具有相似语义信息的tokens。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在 LLaVA-Interleave 和 ComPairs 基准测试中验证了 ToFu 的有效性。ComPairs 是一个新创建的基准,专注于多图像比较。实验结果表明,ToFu 能够在显著减少视觉tokens数量的同时,保持甚至提升模型的性能。具体的性能数据和提升幅度在论文中进行了详细的展示和分析。

🎯 应用场景

ToFu 有潜力广泛应用于需要处理多图像输入的各种场景,例如:医学影像分析(比较不同时间点的CT扫描结果)、遥感图像分析(监测地表变化)、自动驾驶(融合多个摄像头图像以进行环境感知)以及多模态对话系统(理解用户上传的多张图片并进行交互)。通过降低计算成本,ToFu 有助于推动LMMs在资源受限环境中的应用。

📄 摘要(原文)

Large Multimodal Models (LMMs) are powerful tools that are capable of reasoning and understanding multimodal information beyond text and language. Despite their entrenched impact, the development of LMMs is hindered by the higher computational requirements compared to their unimodal counterparts. One of the main causes of this is the large amount of tokens needed to encode the visual input, which is especially evident for multi-image multimodal tasks. Recent approaches to reduce visual tokens depend on the visual encoder architecture, require fine-tuning the LLM to maintain the performance, and only consider single-image scenarios. To address these limitations, we propose ToFu, a visual encoder-agnostic, training-free Token Fusion strategy that combines redundant visual tokens of LMMs for high-resolution, multi-image, tasks. The core intuition behind our method is straightforward yet effective: preserve distinctive tokens while combining similar ones. We achieve this by sequentially examining visual tokens and deciding whether to merge them with others or keep them as separate entities. We validate our approach on the well-established LLaVA-Interleave Bench, which covers challenging multi-image tasks. In addition, we push to the extreme our method by testing it on a newly-created benchmark, ComPairs, focused on multi-image comparisons where a larger amount of images and visual tokens are inputted to the LMMs. Our extensive analysis, considering several LMM architectures, demonstrates the benefits of our approach both in terms of efficiency and performance gain.