VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

📄 arXiv: 2410.05160v3 📥 PDF

作者: Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-10-07 (更新: 2025-01-02)

备注: Technical Report


💡 一句话要点

VLM2Vec:训练视觉-语言模型用于大规模多模态嵌入任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 视觉-语言模型 对比学习 信息检索 视觉问答 MMEB基准 通用嵌入 跨模态学习

📋 核心要点

  1. 现有通用多模态嵌入模型缺乏,阻碍了跨任务的知识迁移和泛化能力。
  2. VLM2Vec通过对比学习框架,将预训练的视觉-语言模型转化为任务相关的嵌入模型。
  3. 实验表明,VLM2Vec在多个多模态任务上显著优于现有嵌入模型,提升幅度达10%-20%。

📝 摘要(中文)

嵌入模型在语义相似度、信息检索和聚类等下游任务中至关重要。近年来,通用文本嵌入模型(如MTEB)的研究激增。然而,尽管多模态嵌入模型具有重要性和实用性,但其发展相对缓慢。本文旨在探索构建能够处理各种下游任务的通用嵌入模型的潜力。我们的贡献有两方面:(1)MMEB(大规模多模态嵌入基准),涵盖4个元任务(即分类、视觉问答、多模态检索和视觉定位)和36个数据集,包括20个训练数据集和16个评估数据集,涵盖同分布和异分布任务;(2)VLM2Vec(视觉-语言模型 -> 向量),一种对比学习框架,通过在MMEB上训练,将任何最先进的视觉-语言模型转换为嵌入模型。与CLIP和BLIP等模型不同,VLM2Vec可以处理图像和文本的任意组合,并根据任务指令生成固定维度的向量。我们在Phi-3.5-V、LLaVA-1.6等SoTA VLMs上构建了一系列VLM2Vec模型,并在MMEB的评估集上对其进行评估。结果表明,VLM2Vec在MMEB的同分布和异分布数据集上,比现有的多模态嵌入模型平均提高了10%到20%。我们证明了VLMs是潜在的强大嵌入模型。

🔬 方法详解

问题定义:论文旨在解决通用多模态嵌入模型的构建问题。现有的多模态嵌入模型通常针对特定任务设计,缺乏通用性和跨任务迁移能力。此外,现有模型如CLIP和BLIP在编码图像和文本时缺乏任务指令的引导,导致生成的嵌入向量难以适应不同的下游任务。

核心思路:论文的核心思路是将预训练的视觉-语言模型(VLM)转化为通用的多模态嵌入模型。通过对比学习的方式,利用大规模多模态数据集(MMEB)对VLM进行微调,使其能够根据任务指令生成固定维度的嵌入向量。这种方法充分利用了VLM强大的视觉和语言理解能力,并使其能够适应各种下游任务。

技术框架:VLM2Vec的整体框架包括以下几个主要步骤:1)选择一个预训练的视觉-语言模型(如Phi-3.5-V、LLaVA-1.6);2)构建大规模多模态嵌入基准(MMEB),包含多个元任务和数据集;3)使用对比学习目标函数,在MMEB上对VLM进行微调,使其能够根据任务指令生成嵌入向量;4)在MMEB的评估集上对VLM2Vec模型进行评估。

关键创新:VLM2Vec的关键创新在于其将预训练的VLM转化为通用多模态嵌入模型的能力。与传统的独立编码图像和文本的模型不同,VLM2Vec能够同时处理图像和文本,并根据任务指令生成嵌入向量。此外,MMEB基准的构建也为多模态嵌入模型的研究提供了新的资源。

关键设计:VLM2Vec的关键设计包括:1)使用对比学习目标函数,鼓励相似的图像-文本对生成相似的嵌入向量,不相似的图像-文本对生成不同的嵌入向量;2)设计任务指令,引导VLM生成任务相关的嵌入向量;3)选择合适的VLM作为基础模型,并对其进行微调,以适应多模态嵌入任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VLM2Vec在MMEB基准测试中取得了显著的性能提升,在同分布和异分布数据集上,平均比现有模型提高了10%-20%。这表明,通过合适的训练方法,预训练的视觉-语言模型可以转化为强大的通用多模态嵌入模型。实验结果验证了VLM2Vec的有效性和泛化能力。

🎯 应用场景

VLM2Vec具有广泛的应用前景,可应用于图像检索、视觉问答、多模态信息检索、机器人导航等领域。通过将图像和文本信息嵌入到统一的向量空间中,VLM2Vec可以实现跨模态的语义理解和推理,为各种下游任务提供强大的支持。该研究有助于推动多模态人工智能的发展,并为构建更智能、更通用的AI系统奠定基础。

📄 摘要(原文)

Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite its importance and practicality. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets covering both in-distribution and out-of-distribution tasks, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, which encodes text or images independently without any task instruction, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split. Our results show that VLM2Vec achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB. We show that VLMs are secretly strong embedding models.