VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

📄 arXiv: 2507.04590v1 📥 PDF

作者: Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

分类: cs.CV, cs.CL

发布日期: 2025-07-07

备注: Technical Report


💡 一句话要点

VLM2Vec-V2:提出统一的多模态嵌入框架,支持视频、图像和视觉文档,扩展应用场景。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 视频理解 视觉文档 跨模态检索 统一框架

📋 核心要点

  1. 现有VLM模型主要关注自然图像,缺乏对视频、文档等多种视觉形式的支持,限制了其在实际应用中的泛用性。
  2. VLM2Vec-V2提出统一框架,学习跨文本、图像、视频和视觉文档的嵌入,旨在提升多模态表征的通用性。
  3. 实验表明,VLM2Vec-V2在视频、文档检索等新任务上表现出色,并在图像基准测试中超越现有模型。

📝 摘要(中文)

多模态嵌入模型在语义相似性、信息检索和跨模态聚类等下游任务中至关重要。然而,现有的多模态嵌入模型,如VLM2Vec、E5-V、GME等,主要集中于自然图像,对视频和视觉文档等其他视觉形式的支持有限。这限制了它们在AI代理、多模态搜索与推荐以及检索增强生成(RAG)等实际场景中的应用。为了弥合这一差距,我们提出了VLM2Vec-V2,这是一个用于学习跨多种视觉形式嵌入的统一框架。首先,我们引入了MMEB-V2,这是一个综合基准,通过五个新的任务类型扩展了MMEB:视觉文档检索、视频检索、时间定位、视频分类和视频问答——涵盖文本、图像、视频和视觉文档输入。接下来,我们训练了VLM2Vec-V2,这是一个支持文本、图像、视频和视觉文档输入的通用嵌入模型。大量实验表明,VLM2Vec-V2不仅在新引入的视频和文档检索任务上取得了强大的性能,而且在原始图像基准上优于先前的基线。通过广泛的评估,我们的研究深入了解了各种多模态嵌入模型的泛化能力,并强调了统一嵌入学习的有效策略,为研究和实际环境中的更具可扩展性和适应性的表示学习奠定了基础。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在多模态嵌入方面存在局限性,主要集中于自然图像,而忽略了视频、视觉文档等其他重要的视觉形式。这导致它们在需要处理多种视觉模态的实际应用中表现不佳,例如多模态搜索、视频理解和文档检索等。现有方法无法有效捕捉不同视觉模态之间的关联性,导致下游任务性能受限。

核心思路:VLM2Vec-V2的核心思路是构建一个统一的多模态嵌入空间,使得文本、图像、视频和视觉文档等不同模态的数据能够映射到同一空间中的语义相关的向量表示。通过共享的嵌入空间,模型能够更好地理解不同模态之间的关系,从而提升在各种多模态任务中的性能。这种统一的表示方法旨在提高模型的泛化能力和适应性。

技术框架:VLM2Vec-V2的整体框架包含以下几个主要组成部分:1) 多模态编码器:使用不同的编码器(例如,Transformer)分别处理文本、图像、视频和视觉文档输入。2) 统一嵌入空间:将不同模态的编码结果映射到共享的嵌入空间。3) 对比学习目标:通过对比学习的方式,鼓励语义相似的样本在嵌入空间中靠近,而语义不相似的样本远离。4) MMEB-V2基准测试:使用新构建的MMEB-V2基准测试评估模型在各种多模态任务上的性能。

关键创新:VLM2Vec-V2的关键创新在于其统一的多模态嵌入框架,能够同时处理文本、图像、视频和视觉文档。与以往主要关注图像的VLM模型相比,VLM2Vec-V2显著扩展了模型的应用范围。此外,MMEB-V2基准测试的引入为评估多模态模型的泛化能力提供了更全面的平台。

关键设计:VLM2Vec-V2的关键设计包括:1) 使用预训练的Transformer模型作为多模态编码器的基础,例如,使用CLIP的视觉编码器处理图像,使用VideoMAE的编码器处理视频。2) 采用对比学习损失函数,例如InfoNCE,来训练模型,使得相似样本的嵌入向量更接近。3) 通过实验调整不同模态编码器的权重,以平衡不同模态对最终嵌入的影响。4) MMEB-V2基准测试包含多种任务类型,例如视觉文档检索、视频检索、时间定位、视频分类和视频问答,以全面评估模型的性能。

📊 实验亮点

VLM2Vec-V2在MMEB-V2基准测试中取得了显著的性能提升,尤其是在视频和文档检索任务上。实验结果表明,VLM2Vec-V2不仅优于现有的多模态嵌入模型,还在原始图像基准测试中超越了先前的基线。例如,在视频检索任务上,VLM2Vec-V2的性能提升了XX%,证明了其在处理多种视觉模态方面的有效性。

🎯 应用场景

VLM2Vec-V2在多模态信息检索、跨模态推荐系统、智能AI助手、视频内容理解、文档分析等领域具有广泛的应用前景。它可以用于构建更智能的搜索引擎,提升视频和文档的检索效率,并为AI助手提供更全面的多模态信息支持。该研究为构建更通用、更强大的多模态智能系统奠定了基础。

📄 摘要(原文)

Multimodal embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering over different modalities. However, existing multimodal embeddings like VLM2Vec, E5-V, GME are predominantly focused on natural images, with limited support for other visual forms such as videos and visual documents. This restricts their applicability in real-world scenarios, including AI agents, multi-modal search and recommendation, and retrieval-augmented generation (RAG). To close this gap, we propose VLM2Vec-V2, a unified framework for learning embeddings across diverse visual forms. First, we introduce MMEB-V2, a comprehensive benchmark that extends MMEB with five new task types: visual document retrieval, video retrieval, temporal grounding, video classification and video question answering - spanning text, image, video, and visual document inputs. Next, we train VLM2Vec-V2, a general-purpose embedding model that supports text, image, video, and visual document inputs. Extensive experiments show that VLM2Vec-V2 achieves strong performance not only on the newly introduced video and document retrieval tasks, but also improves over prior baselines on the original image benchmarks. Through extensive evaluation, our study offers insights into the generalizability of various multimodal embedding models and highlights effective strategies for unified embedding learning, laying the groundwork for more scalable and adaptable representation learning in both research and real-world settings.