U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning with MLLMs

📄 arXiv: 2507.14902v1 📥 PDF

作者: Xiaojie Li, Chu Li, Shi-Zhe Chen, Xi Chen

分类: cs.IR, cs.CV

发布日期: 2025-07-20

备注: Technical Report (in progress)

🔗 代码/项目: GITHUB


💡 一句话要点

U-MARVEL:通过MLLM嵌入学习揭示通用多模态检索的关键因素

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 多模态大语言模型 对比学习 嵌入学习 难负样本挖掘 重排序器蒸馏 零样本学习 M-BEIR基准

📋 核心要点

  1. 现有基于MLLM的多模态检索方法训练方式各异,缺乏对其检索能力机制的深入理解,导致性能提升受限。
  2. U-MARVEL通过系统分析嵌入生成和训练策略,揭示了影响多模态检索性能的关键因素,并提出了统一框架。
  3. 实验表明,U-MARVEL在M-BEIR基准上显著优于现有方法,并在零样本任务中展现出强大的泛化能力。

📝 摘要(中文)

通用多模态检索(UMR)旨在解决查询和候选对象跨越多样模态的复杂检索任务,多模态大语言模型(MLLM)的出现极大地推动了UMR的发展。现有文献中基于MLLM的最先进方法主要采用对比学习原则,但它们的具体训练方法各不相同。尽管它们取得了成功,但其检索能力背后的机制仍未得到充分探索,这可能导致次优的性能和有限的泛化能力。为了解决这些问题,我们提出了一项全面的研究,旨在揭示使用MLLM进行UMR有效嵌入学习的关键因素。我们首先实现了一个通用的基于MLLM的嵌入学习流程,并系统地分析了高性能通用检索系统的主要贡献者。在此基础上,我们探讨了嵌入生成和训练策略中各个方面的细节,包括渐进过渡、难负样本挖掘和重排序器蒸馏。值得注意的是,我们的研究结果表明,经常被忽视的因素可能对模型性能产生重大影响。基于这些发现,我们引入了一个名为U-MARVEL(通过嵌入学习实现通用多模态检索)的统一框架,该框架在监督设置下,在M-BEIR基准测试中大幅优于最先进的竞争对手,并且在组合图像检索和文本到视频检索等多个任务中表现出强大的零样本性能。这些结果突出了我们的框架在各种基于嵌入的检索任务中的泛化潜力。

🔬 方法详解

问题定义:论文旨在解决通用多模态检索(UMR)问题,即查询和候选对象可以是不同模态(例如文本、图像、视频)的复杂检索任务。现有基于MLLM的方法虽然有效,但缺乏对其检索能力内在机制的深入理解,导致性能提升遇到瓶颈,且泛化能力不足。

核心思路:论文的核心思路是通过系统性的实验分析,揭示影响MLLM在UMR任务中嵌入学习效果的关键因素。通过对嵌入生成和训练策略的各个方面进行细致研究,找到提升检索性能的有效方法。

技术框架:U-MARVEL框架包含以下主要模块:1) 基于MLLM的通用嵌入学习流程,用于生成多模态数据的嵌入表示;2) 系统分析模块,用于评估不同因素对检索性能的影响;3) 渐进过渡、难负样本挖掘和重排序器蒸馏等训练策略优化模块;4) 统一的检索框架,集成了上述优化策略。

关键创新:论文的关键创新在于:1) 系统性地研究了影响MLLM在UMR任务中嵌入学习的关键因素,例如渐进过渡、难负样本挖掘等;2) 提出了U-MARVEL框架,将这些关键因素整合到一个统一的框架中,实现了显著的性能提升和泛化能力。

关键设计:论文的关键设计包括:1) 采用对比学习作为主要的训练范式;2) 精心设计的难负样本挖掘策略,以提高模型的区分能力;3) 使用重排序器蒸馏,将重排序器的知识迁移到嵌入模型中;4) 渐进过渡策略,逐步增加训练难度,提高模型的鲁棒性。

🖼️ 关键图片

fig_0

📊 实验亮点

U-MARVEL在M-BEIR基准测试中,在监督设置下大幅超越了现有最先进的方法。此外,U-MARVEL在组合图像检索和文本到视频检索等零样本任务中也表现出强大的性能,验证了其良好的泛化能力。具体性能提升数据未在摘要中给出,需参考论文正文。

🎯 应用场景

U-MARVEL框架可广泛应用于各种多模态信息检索场景,例如图像/视频搜索、跨模态推荐、内容理解等。该研究有助于提升搜索引擎、电商平台、社交媒体等应用的用户体验,并为未来的多模态学习研究提供有价值的指导。

📄 摘要(原文)

Universal multimodal retrieval (UMR), which aims to address complex retrieval tasks where both queries and candidates span diverse modalities, has been significantly advanced by the emergence of MLLMs. While state-of-the-art MLLM-based methods in the literature predominantly adopt contrastive learning principles, they often differ in their specific training recipes. Despite their success, the mechanisms underlying their retrieval capabilities remain largely unexplored, potentially resulting in suboptimal performance and limited generalization ability. To address these issues, we present a comprehensive study aimed at uncovering the key factors that drive effective embedding learning for UMR using MLLMs. We begin by implementing a general MLLM-based embedding learning pipeline, and systematically analyze the primary contributors to high-performing universal retrieval systems. Based on this, we explore various aspects of the details in embedding generation and training strategies, including progressive transition, hard negative mining and re-ranker distillation. Notably, our findings reveal that often-overlooked factors can have a substantial impact on model performance. Building on these discoveries, we introduce a unified framework termed U-MARVEL (\textbf{U}niversal \textbf{M}ultimod\textbf{A}l \textbf{R}etrie\textbf{V}al via \textbf{E}mbedding \textbf{L}earning), which outperforms state-of-the-art competitors on the M-BEIR benchmark by a large margin in supervised settings, and also exihibits strong zero-shot performance on several tasks such as composed image retrieval and text-to-video retrieval. These results underscore the generalization potential of our framework across various embedding-based retrieval tasks. Code is available at https://github.com/chaxjli/U-MARVEL