From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs

作者: Mingxiao Li, Fang Qu, Zhanpeng Chen, Na Su, Zhizhou Zhong, Ziyang Chen, Nan Du, Xiaolong Li

分类: cs.CV

发布日期: 2025-02-13

💡 一句话要点

提出VDEP，通过自回归预训练增强MLLM图像和文本token的对齐，提升多模态理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 视觉语言模型 自回归预训练 图像文本对齐

📋 核心要点

现有MLLM在多模态对齐方面存在不足，无法有效处理和利用图像数据中的细节信息。
VDEP通过动态嵌入引导预训练，将图像token融入自回归训练，从而增强图像和文本token之间的对齐。
实验结果表明，VDEP在多个基准测试中超越了现有方法，验证了其有效性。

📝 摘要（中文）

多模态大型语言模型(MLLM)在感知任务上表现出色，但缺乏精确的多模态对齐，限制了性能。为了解决这个问题，我们提出了一种用于MLLM的混合自回归训练范式：视觉动态嵌入引导预训练(VDEP)。该方法利用视觉编码器后MLP的动态嵌入来监督图像隐藏状态，并将图像token集成到自回归训练中。现有的MLLM主要集中于从文本输入中恢复信息，通常忽略了图像数据的有效处理。相比之下，这项工作的主要改进是将多模态对齐重新解释为从输入数据中恢复信息的过程，特别强调重建详细的视觉特征。所提出的方法可以无缝集成到标准模型中，无需架构更改。在13个基准测试上的实验表明，VDEP优于基线方法，超过了现有方法。

🔬 方法详解

问题定义：现有MLLM虽然在感知任务上表现良好，但其多模态对齐能力不足，无法充分利用图像中的细节信息。它们通常侧重于从文本输入中恢复信息，而忽略了对图像数据的有效处理，导致性能瓶颈。因此，如何提升MLLM的多模态对齐能力，使其能够更好地理解和利用图像信息，是本文要解决的关键问题。

核心思路：本文的核心思路是将多模态对齐问题重新定义为从输入数据中恢复信息的过程，并特别强调重建详细的视觉特征。通过引入视觉动态嵌入引导预训练(VDEP)，利用视觉编码器后MLP的动态嵌入来监督图像隐藏状态，从而将图像token有效地集成到自回归训练中。这种方法旨在增强图像和文本token之间的对齐，使模型能够更好地理解和利用图像信息。

技术框架：VDEP方法主要包含以下几个关键模块：首先，使用视觉编码器提取图像特征。然后，利用MLP生成动态嵌入，用于监督图像隐藏状态。接下来，将图像token集成到自回归训练过程中，与文本token一起进行训练。整个框架可以无缝集成到现有的MLLM架构中，无需进行大规模的架构修改。

关键创新：本文的关键创新在于将多模态对齐问题重新定义为信息恢复问题，并提出了VDEP方法，通过动态嵌入引导预训练来增强图像和文本token之间的对齐。与现有方法不同，VDEP更加注重对图像数据的有效处理，并强调重建详细的视觉特征。这种方法能够更好地利用图像信息，从而提升MLLM的性能。

关键设计：VDEP的关键设计包括：1) 使用MLP生成动态嵌入，用于监督图像隐藏状态；2) 将图像token与文本token一起进行自回归训练；3) 设计合适的损失函数，以鼓励模型更好地对齐图像和文本token。具体的参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VDEP在13个基准测试中均优于现有基线方法，证明了其有效性。具体性能数据和提升幅度未在摘要中给出，属于未知信息。但总体而言，VDEP能够显著提升MLLM的多模态理解能力。

🎯 应用场景

该研究成果可广泛应用于图像描述生成、视觉问答、图像检索等领域。通过提升MLLM的多模态对齐能力，可以使模型更好地理解图像内容，从而在各种实际应用中取得更好的效果。未来，该方法有望推动多模态人工智能技术的发展，并在智能客服、自动驾驶、医疗诊断等领域发挥重要作用。

📄 摘要（原文）

While MLLMs perform well on perceptual tasks, they lack precise multimodal alignment, limiting performance. To address this challenge, we propose Vision Dynamic Embedding-Guided Pretraining (VDEP), a hybrid autoregressive training paradigm for MLLMs. Utilizing dynamic embeddings from the MLP following the visual encoder, this approach supervises image hidden states and integrates image tokens into autoregressive training. Existing MLLMs primarily focused on recovering information from textual inputs, often neglecting the effective processing of image data. In contrast, the key improvement of this work is the reinterpretation of multimodal alignment as a process of recovering information from input data, with particular emphasis on reconstructing detailed visual features.The proposed method seamlessly integrates into standard models without architectural changes. Experiments on 13 benchmarks show VDEP outperforms baselines, surpassing existing methods.

From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理