Generalized Contrastive Learning for Universal Multimodal Retrieval

📄 arXiv: 2509.25638v1 📥 PDF

作者: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

分类: cs.CV, cs.LG

发布日期: 2025-09-30

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出广义对比学习GCL,解决通用多模态检索中组合模态泛化性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 对比学习 跨模态学习 通用表示 图像文本融合

📋 核心要点

  1. 跨模态检索模型在处理图像-文本组合模态时性能下降,现有方法依赖于精心策划的新数据集,泛化性差。
  2. GCL的核心思想是在mini-batch内的所有模态上进行对比学习,利用现有数据学习统一的表示空间,无需额外数据标注。
  3. 实验表明,GCL能有效提升现有模型在多个多模态检索基准上的性能,证明了其有效性和通用性。

📝 摘要(中文)

本文提出了一种广义对比学习(GCL)方法,旨在解决跨模态检索模型在检索由融合图像-文本模态组成的键(例如,包含图像和文本的维基百科页面)时性能下降的问题。GCL通过在mini-batch内的所有模态上强制执行对比学习,利用现有的图像-标题配对数据集来学习统一的表示空间,从而改进多模态检索性能,而无需繁琐的新数据集管理。实验结果表明,GCL能够持续提升现有模型(如VISTA、CLIP和TinyCLIP)在M-BEIR、MMEB和CoVR基准测试上的性能。

🔬 方法详解

问题定义:现有的跨模态检索模型,如CLIP,在处理融合了多种模态(例如,图像和文本)的检索任务时,性能会显著下降。为了解决这个问题,需要一个能够处理各种模态组合的统一检索模型。然而,构建包含各种模态组合的新数据集需要大量的人工标注和数据清洗,成本高昂,且难以泛化到未见过的模态组合。

核心思路:本文的核心思路是利用现有的图像-文本配对数据集,通过广义对比学习(GCL)来学习一个统一的表示空间。GCL的核心思想是在一个mini-batch中,将所有模态的数据都视为正样本或负样本,从而强制模型学习不同模态之间的关联性,而无需显式地构建新的模态组合数据集。

技术框架:GCL的整体框架是在现有的跨模态检索模型(如CLIP)的基础上,添加一个GCL损失函数。该损失函数在每个mini-batch中计算所有模态之间的对比损失。具体来说,对于一个包含N个样本的mini-batch,每个样本可能包含图像、文本或两者都有。GCL首先将所有样本编码到统一的表示空间中,然后计算每个样本与其他样本之间的相似度。对于每个样本,与其属于同一图像-文本对的样本被视为正样本,其余样本被视为负样本。然后,GCL使用对比损失函数来最大化正样本之间的相似度,并最小化负样本之间的相似度。

关键创新:GCL的关键创新在于它能够利用现有的图像-文本配对数据集来学习一个统一的表示空间,而无需构建新的模态组合数据集。这使得GCL能够更容易地应用于各种多模态检索任务,并且具有更好的泛化能力。与现有方法相比,GCL不需要人工标注新的模态组合数据集,从而大大降低了成本。

关键设计:GCL的关键设计在于对比损失函数的选择和mini-batch的构建方式。本文使用了InfoNCE损失函数作为对比损失函数,该损失函数能够有效地最大化正样本之间的相似度,并最小化负样本之间的相似度。此外,本文还提出了一种新的mini-batch构建方式,该方式能够确保每个mini-batch中包含足够多的正样本和负样本,从而提高GCL的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GCL能够显著提升现有模型在M-BEIR、MMEB和CoVR等多个多模态检索基准上的性能。例如,在M-BEIR基准上,使用GCL训练的CLIP模型相比原始CLIP模型,检索准确率提升了多个百分点,证明了GCL的有效性和通用性。

🎯 应用场景

该研究成果可广泛应用于多模态信息检索领域,例如:以图搜图、以文搜图、跨模态推荐、多媒体内容理解等。通过提升模型对不同模态组合的泛化能力,可以更好地理解和检索互联网上的海量多模态数据,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

Despite their consistent performance improvements, cross-modal retrieval models (e.g., CLIP) show degraded performances with retrieving keys composed of fused image-text modality (e.g., Wikipedia pages with both images and text). To address this critical challenge, multimodal retrieval has been recently explored to develop a unified single retrieval model capable of retrieving keys across diverse modality combinations. A common approach involves constructing new composed sets of image-text triplets (e.g., retrieving a pair of image and text given a query image). However, such an approach requires careful curation to ensure the dataset quality and fails to generalize to unseen modality combinations. To overcome these limitations, this paper proposes Generalized Contrastive Learning (GCL), a novel loss formulation that improves multimodal retrieval performance without the burdensome need for new dataset curation. Specifically, GCL operates by enforcing contrastive learning across all modalities within a mini-batch, utilizing existing image-caption paired datasets to learn a unified representation space. We demonstrate the effectiveness of GCL by showing consistent performance improvements on off-the-shelf multimodal retrieval models (e.g., VISTA, CLIP, and TinyCLIP) using the M-BEIR, MMEB, and CoVR benchmarks.