FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

📄 arXiv: 2501.16297v2 📥 PDF

作者: Renshan Zhang, Rui Shao, Gongwei Chen, Miao Zhang, Kaiwen Zhou, Weili Guan, Liqiang Nie

分类: cs.CV

发布日期: 2025-01-27 (更新: 2025-06-30)

备注: Accepted to the IEEE/CVF International Conference on Computer Vision (ICCV) 2025


💡 一句话要点

FALCON:通过视觉寄存器解决高分辨率多模态大语言模型中的视觉冗余和碎片化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 高分辨率图像 视觉冗余 视觉寄存器 视觉编码 注意力机制 图像理解

📋 核心要点

  1. 现有高分辨率MLLM依赖裁剪方法处理图像,导致视觉编码碎片化,产生大量冗余token,影响效率。
  2. FALCON模型引入视觉寄存器技术,通过ReCompact机制消除冗余token,并使用ReAtten模块保证视觉编码的连续性。
  3. 实验表明,FALCON在高分辨率基准测试中表现优异,同时显著减少了视觉token的数量,降低了计算成本。

📝 摘要(中文)

本文提出了FALCON模型,旨在解决高分辨率多模态大语言模型(MLLM)中存在的视觉冗余和碎片化问题。现有高分辨率MLLM主要依赖于基于裁剪的方法处理图像,导致视觉编码碎片化和冗余token急剧增加。FALCON引入了一种新的视觉寄存器技术,通过Register-based Representation Compacting (ReCompact)机制消除视觉编码阶段的冗余token,该机制利用一组可学习的视觉寄存器自适应地聚合关键信息并丢弃冗余。同时,通过Register Interactive Attention (ReAtten)模块,促进子图像之间的有效信息交换,确保视觉语义的连续性。实验结果表明,FALCON在各种高分辨率基准测试中表现出色,并且视觉token数量减少了9倍。

🔬 方法详解

问题定义:现有高分辨率多模态大语言模型通常采用基于裁剪的方法处理高分辨率图像,这导致两个主要问题:一是视觉编码的碎片化,将图像分割成多个子图像会丢失全局上下文信息;二是视觉冗余,裁剪后的子图像可能包含大量重复或不重要的信息,增加了计算负担和模型复杂度。这些问题限制了高分辨率MLLM在实际应用中的性能和效率。

核心思路:FALCON的核心思路是利用一组可学习的视觉寄存器来聚合图像的关键信息,同时消除冗余。通过这种方式,模型可以生成更紧凑、更具代表性的视觉表示,从而减少计算量并提高性能。此外,通过交互式注意力机制,确保子图像之间的信息能够有效传递,维持视觉语义的连续性。

技术框架:FALCON模型主要包含两个核心模块:Register-based Representation Compacting (ReCompact) 和 Register Interactive Attention (ReAtten)。首先,视觉编码器提取图像特征。然后,ReCompact模块利用一组可学习的视觉寄存器,自适应地聚合视觉编码器的输出特征,去除冗余信息,生成紧凑的视觉表示。接着,ReAtten模块通过交互式注意力机制,在视觉寄存器之间进行信息交换,增强子图像之间的关联性。最后,将处理后的视觉表示输入到语言模型中进行后续处理。

关键创新:FALCON的关键创新在于引入了视觉寄存器的概念,并设计了ReCompact和ReAtten两个模块。与传统的裁剪方法相比,FALCON能够更有效地处理高分辨率图像,减少视觉冗余,并保持视觉语义的连续性。ReCompact模块通过自适应地聚合关键信息,避免了信息丢失,而ReAtten模块则通过交互式注意力机制,增强了子图像之间的关联性。

关键设计:ReCompact模块的关键设计在于视觉寄存器的数量和初始化方式。视觉寄存器的数量决定了模型能够聚合的信息量,而初始化方式则影响了模型的收敛速度和性能。ReAtten模块的关键设计在于注意力机制的类型和参数设置。论文可能采用了多头注意力机制,并对注意力头的数量和维度进行了优化。此外,损失函数的设计也至关重要,可能包括对比损失或交叉熵损失,以鼓励模型学习更具代表性的视觉表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FALCON模型在多个高分辨率基准测试中取得了显著的性能提升。实验结果表明,FALCON能够在保持甚至提升性能的同时,将视觉token数量减少9倍。这表明FALCON能够更有效地处理高分辨率图像,减少计算负担,提高模型效率。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

FALCON模型具有广泛的应用前景,例如在高分辨率图像理解、视频分析、遥感图像处理、医学图像诊断等领域。该模型能够有效处理高分辨率视觉输入,减少计算负担,提高模型性能,从而为相关应用带来实际价值。未来,FALCON有望应用于自动驾驶、智能监控、虚拟现实等领域,推动人工智能技术的发展。

📄 摘要(原文)

The incorporation of high-resolution visual input equips multimodal large language models (MLLMs) with enhanced visual perception capabilities for real-world tasks. However, most existing high-resolution MLLMs rely on a cropping-based approach to process images, which leads to fragmented visual encoding and a sharp increase in redundant tokens. To tackle these issues, we propose the FALCON model. FALCON introduces a novel visual register technique to simultaneously: 1) Eliminate redundant tokens at the stage of visual encoding. To directly address the visual redundancy present in the output of vision encoder, we propose a Register-based Representation Compacting (ReCompact) mechanism. This mechanism introduces a set of learnable visual registers designed to adaptively aggregate essential information while discarding redundancy. It enables the encoder to produce a more compact visual representation with a minimal number of output tokens, thus eliminating the need for an additional compression module. 2) Ensure continuity in visual encoding. To address the potential encoding errors caused by fragmented visual inputs, we develop a Register Interactive Attention (ReAtten) module. This module facilitates effective and efficient information exchange across sub-images by enabling interactions between visual registers. It ensures the continuity of visual semantics throughout the encoding. We conduct comprehensive experiments with FALCON on high-resolution benchmarks across a wide range of scenarios. FALCON demonstrates superior performance with a remarkable 9-fold reduction in visual tokens.