LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models

作者: Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki

分类: cs.CV, cs.CL

发布日期: 2025-01-13

💡 一句话要点

LEO：通过混合视觉编码器提升多模态大语言模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉编码器 视觉语言融合 自适应平铺 后适配融合 自动驾驶 混合专家模型

📋 核心要点

现有MLLM依赖单一视觉编码器或过长的视觉tokens，限制了视觉理解能力。
LEO提出双分支视觉编码器框架，结合后适配融合和自适应平铺策略，有效融合不同视觉编码器的信息。
实验表明，LEO在多个视觉-语言任务上超越了现有开源MLLM，并在自动驾驶领域表现出竞争力。

📝 摘要（中文）

增强的视觉理解是多模态大语言模型(MLLM)的基石。最近的混合MLLM结合了视觉专家混合模型，以解决使用单一视觉编码器和过长视觉token的局限性。尽管这些MLLM取得了进展，但在有效整合不同的视觉编码器方面仍然存在研究空白。本文探索了混合MLLM中视觉token的融合策略，从而设计了LEO，一种新型MLLM，具有双分支视觉编码器框架，该框架结合了后适配融合策略和自适应平铺：对于输入图像的每个分割块，LEO依次交错来自其两个视觉编码器的视觉token。在13个视觉-语言基准上的广泛评估表明，LEO在大多数任务上优于最先进的开源MLLM和混合MLLM。此外，我们表明LEO可以适应自动驾驶的专门领域，而无需改变模型架构或训练方法，与现有基线相比实现了具有竞争力的性能。代码和模型将公开提供。

🔬 方法详解

问题定义：现有的多模态大语言模型在处理视觉信息时，通常依赖于单一的视觉编码器，这限制了模型对图像不同特征的捕捉能力。此外，为了处理高分辨率图像，通常会生成大量的视觉tokens，增加了计算负担，降低了效率。因此，如何有效地融合多个视觉编码器的信息，同时控制视觉tokens的数量，是当前MLLM面临的一个重要问题。

核心思路：LEO的核心思路是利用多个视觉编码器提取图像的不同特征，并通过一种有效的融合策略将这些特征整合起来。具体来说，LEO采用双分支视觉编码器结构，每个分支使用不同的视觉编码器。为了减少视觉tokens的数量，LEO采用了自适应平铺策略，根据图像内容动态调整平铺大小。最后，通过后适配融合策略，将两个视觉编码器的输出进行融合，得到最终的视觉表示。

技术框架：LEO的整体框架包括以下几个主要模块：1) 双分支视觉编码器：使用两个不同的视觉编码器提取图像特征。2) 自适应平铺：将输入图像分割成多个tile，并根据图像内容动态调整tile的大小。3) 后适配融合：将两个视觉编码器的输出进行融合，得到最终的视觉表示。4) 语言模型：将视觉表示输入到语言模型中，进行文本生成或视觉-语言推理。

关键创新：LEO的关键创新在于以下几个方面：1) 提出了双分支视觉编码器结构，可以有效融合多个视觉编码器的信息。2) 采用了自适应平铺策略，可以根据图像内容动态调整tile的大小，从而减少视觉tokens的数量。3) 提出了后适配融合策略，可以有效融合两个视觉编码器的输出，得到最终的视觉表示。

关键设计：LEO的关键设计包括：1) 视觉编码器的选择：可以选择不同的视觉编码器，例如ViT、ResNet等。2) 自适应平铺的策略：可以根据图像的梯度信息或语义信息动态调整tile的大小。3) 后适配融合的方式：可以使用不同的融合方式，例如concatenate、attention等。4) 损失函数的设计：可以使用不同的损失函数，例如交叉熵损失、对比损失等。

🖼️ 关键图片

📊 实验亮点

LEO在13个视觉-语言基准测试中表现出色，超越了当前最先进的开源MLLM和混合MLLM。特别是在某些任务上，LEO的性能提升显著。此外，LEO在自动驾驶领域的应用也取得了具有竞争力的结果，证明了其在特定领域的适应能力。这些实验结果表明，LEO是一种有效的多模态大语言模型，具有很强的泛化能力。

🎯 应用场景

LEO具有广泛的应用前景，包括但不限于：图像描述生成、视觉问答、视觉推理、自动驾驶等。通过提升多模态大语言模型的视觉理解能力，LEO可以帮助机器更好地理解世界，从而实现更智能的人机交互和更高效的自动化任务。未来，LEO有望在智能客服、智能家居、智能交通等领域发挥重要作用。

📄 摘要（原文）

Enhanced visual understanding serves as a cornerstone for multimodal large language models (MLLMs). Recent hybrid MLLMs incorporate a mixture of vision experts to address the limitations of using a single vision encoder and excessively long visual tokens. Despite the progress of these MLLMs, a research gap remains in effectively integrating diverse vision encoders. This work explores fusion strategies of visual tokens for hybrid MLLMs, leading to the design of LEO, a novel MLLM with a dual-branch vision encoder framework that incorporates a post-adaptation fusion strategy and adaptive tiling: for each segmented tile of the input images, LEO sequentially interleaves the visual tokens from its two vision encoders. Extensive evaluation across 13 vision-language benchmarks reveals that LEO outperforms state-of-the-art open-source MLLMs and hybrid MLLMs on the majority of tasks. Furthermore, we show that LEO can be adapted to the specialized domain of autonomous driving without altering the model architecture or training recipe, achieving competitive performance compared to existing baselines. The code and model will be publicly available.

LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理