EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

📄 arXiv: 2502.06788v2 📥 PDF

作者: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang

分类: cs.CV, cs.AI

发布日期: 2025-02-10 (更新: 2025-07-24)

备注: 20 pages, 10 figures, Accepted by ICCV2025 (highlight)

🔗 代码/项目: GITHUB


💡 一句话要点

EVEv2:改进的无编码器视觉-语言模型基线

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 无编码器模型 多模态学习 Transformer解码器 视觉推理 数据效率 跨模态交互

📋 核心要点

  1. 现有视觉-语言模型依赖编码器,结构复杂且部署效率低,而无编码器模型潜力巨大但性能仍有差距。
  2. EVEv2通过分解和分层关联视觉和语言信息,并设计有效的训练策略,优化无编码器模型的性能。
  3. EVEv2.0在数据效率和视觉推理能力上表现出色,证明了仅解码器架构在多模态任务中的有效性。

📝 摘要(中文)

现有的无编码器视觉-语言模型(VLMs)正迅速缩小与基于编码器的模型之间的性能差距,突显了具有结构简单性和高效部署的统一多模态系统的潜力。本文系统地阐明了使用预训练视觉编码器、离散分词器和从头开始构建的极简视觉层的VLMs之间的性能差距,深入挖掘了无编码器VLMs中未被充分研究的特性。我们为无编码器VLMs开发了高效的策略,使其能够与主流的基于编码器的模型相媲美。经过深入研究,我们推出了EVEv2.0,这是一个新的、改进的无编码器VLMs系列。我们表明:(i)在统一模型中正确分解视觉和语言并进行分层关联可以减少模态之间的干扰。(ii)精心设计的训练策略能够为无编码器VLMs实现有效的优化。通过广泛的评估,我们的EVEv2.0代表了对跨模态的仅解码器架构的全面研究,展示了卓越的数据效率和强大的视觉推理能力。代码已在https://github.com/baaivision/EVE上公开。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)通常依赖于预训练的视觉编码器,这增加了模型的复杂性并降低了部署效率。无编码器VLMs具有结构简单和部署高效的潜力,但其性能与基于编码器的模型相比仍有差距。现有的无编码器VLMs的特性尚未被充分挖掘,需要进一步研究和优化。

核心思路:EVEv2的核心思路是通过在统一模型中分解和分层关联视觉和语言信息,减少模态之间的干扰。此外,通过设计有效的训练策略,可以更好地优化无编码器VLMs,从而提高其性能。这种方法旨在充分利用仅解码器架构的优势,实现数据效率和强大的视觉推理能力。

技术框架:EVEv2采用仅解码器的架构,将视觉和语言信息直接输入到解码器中。该框架包含以下主要模块:视觉层(用于处理视觉输入)、语言层(用于处理语言输入)和跨模态交互层(用于融合视觉和语言信息)。通过分层关联视觉和语言信息,模型可以更好地理解跨模态关系。

关键创新:EVEv2的关键创新在于其分解和分层关联视觉和语言信息的方法,以及精心设计的训练策略。与传统的基于编码器的模型相比,EVEv2避免了使用预训练的视觉编码器,从而降低了模型的复杂性。此外,EVEv2的训练策略能够有效地优化无编码器VLMs,使其能够与主流的基于编码器的模型相媲美。

关键设计:EVEv2的关键设计包括:(1) 视觉和语言信息的分层关联,通过多层Transformer解码器实现。(2) 损失函数的设计,可能包括语言建模损失和视觉-语言对齐损失。(3) 训练策略,例如学习率调度、数据增强等。具体参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EVEv2.0在多个视觉-语言任务上取得了显著的性能提升,与现有的无编码器模型相比,EVEv2.0在数据效率和视觉推理能力方面表现出更强的优势。具体性能数据和对比基线需要在论文中查找(未知),但摘要中提到EVEv2.0能够与主流的基于编码器的模型相媲美。

🎯 应用场景

EVEv2具有广泛的应用前景,例如图像描述生成、视觉问答、视觉对话等。该研究可以促进统一多模态系统的发展,实现更高效、更灵活的视觉-语言交互。未来,EVEv2可以应用于机器人、自动驾驶、智能助手等领域,提升人工智能系统的感知和推理能力。

📄 摘要(原文)

Existing encoder-free vision-language models (VLMs) are rapidly narrowing the performance gap with their encoder-based counterparts, highlighting the promising potential for unified multimodal systems with structural simplicity and efficient deployment. We systematically clarify the performance gap between VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist visual layers from scratch, deeply excavating the under-examined characteristics of encoder-free VLMs. We develop efficient strategies for encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth investigation, we launch EVEv2.0, a new and improved family of encoder-free VLMs. We show that: (i) Properly decomposing and hierarchically associating vision and language within a unified model reduces interference between modalities. (ii) A well-designed training strategy enables effective optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0 represents a thorough study for developing a decoder-only architecture across modalities, demonstrating superior data efficiency and strong vision-reasoning capability. Code is publicly available at: https://github.com/baaivision/EVE.