SOLAR: Self-supervised Joint Learning for Symmetric Multimodal Retrieval

📄 arXiv: 2605.15868v1 📥 PDF

作者: Wenjie Yang, Hang Yu, Yuyu Guo, Peng Di

分类: cs.CV

发布日期: 2026-05-15

备注: Accepted by ICML 2026


💡 一句话要点

提出SOLAR框架,解决对称多模态检索问题,无需人工标注数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 自监督学习 对比学习 图像文本对 对称检索

📋 核心要点

  1. 现有通用多模态检索方法受限于非对称标注数据集,无法有效解决对称多模态检索问题。
  2. SOLAR框架通过两阶段自监督学习,利用图像-文本对的交集掩码对齐语义,并构建正负样本。
  3. 实验表明,SOLAR在新的对称多模态检索基准上显著优于现有方法,且模型参数更少。

📝 摘要(中文)

本文致力于解决对称多模态到多模态(MM2MM)检索这一关键但未被充分探索的挑战,其中查询和上下文可以互换。现有的通用多模态检索方法难以胜任此任务,因为它们受到所使用的非对称标注数据集的限制。我们提出了SOLAR(用于对称多模态检索的自监督联合学习),这是一个新颖的两阶段自监督框架,它利用现成的、未标注的网络规模图像-文本对。基于图像-文本对之间既存在语义对齐又存在差异的观察,在第一阶段,我们学习图像-文本对的交集掩码,从而允许我们对齐交集,同时保留差异的语义。在第二阶段,学习到的掩码被进一步用于通过掩盖图像/文本的不同部分来构建正样本和难负样本,这使我们能够进行自监督多模态嵌入学习。为了补充这个框架,我们提出了一个新的基准,该基准具有高质量的人工验证的正样本和难负样本,以评估真实条件下的对称MM2MM检索,以及相应的流程。针对十种SOTA方法的广泛实验表明,SOLAR在这个基准上超越了最强的监督VLM 7.08个点,模型参数减少了50倍以上,嵌入维度缩小了5倍。代码和基准即将发布。

🔬 方法详解

问题定义:论文旨在解决对称多模态检索问题,即查询和上下文可以互换的场景。现有方法主要针对非对称检索,依赖大量标注数据,泛化能力有限,难以直接应用于对称检索任务。此外,如何有效利用未标注数据进行多模态表征学习也是一个挑战。

核心思路:论文的核心思路是利用自监督学习,从大规模未标注的图像-文本数据中学习多模态表征。通过挖掘图像和文本之间的语义关联和差异,构建自监督信号,从而避免对人工标注的依赖。关键在于学习图像-文本对的交集掩码,区分共享语义和独特语义。

技术框架:SOLAR框架包含两个主要阶段:1) 交集掩码学习:利用图像-文本对学习交集掩码,用于对齐共享语义,保留差异语义。2) 自监督多模态嵌入学习:基于学习到的掩码,通过掩盖图像/文本的不同部分构建正负样本,进行对比学习,从而学习多模态嵌入。整体流程是先学习掩码,再利用掩码进行对比学习。

关键创新:论文的关键创新在于提出了基于交集掩码的自监督学习方法,能够有效区分和利用图像-文本对之间的共享语义和差异语义。与现有方法相比,SOLAR无需人工标注,能够更好地利用大规模未标注数据,并且更适用于对称多模态检索任务。

关键设计:在交集掩码学习阶段,具体实现方式未知,可能使用了某种注意力机制或相似度度量方法来确定图像和文本之间的共享区域。在自监督对比学习阶段,正样本是通过掩盖图像/文本的非共享区域生成的,负样本是通过掩盖共享区域生成的。损失函数可能采用了InfoNCE loss或其他对比学习常用的损失函数。具体的网络结构未知,但可以推测使用了Transformer或其他常用的多模态模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SOLAR在新的对称多模态检索基准上,超越了最强的监督VLM方法7.08个百分点,同时模型参数减少了50倍以上,嵌入维度缩小了5倍。这表明SOLAR在性能和效率上都具有显著优势,验证了自监督学习在对称多模态检索任务中的有效性。

🎯 应用场景

SOLAR框架可应用于各种对称多模态检索场景,例如:以图搜文和以文搜图的双向检索、跨模态推荐、多模态对话系统等。该研究降低了对标注数据的依赖,使得多模态检索技术能够更好地应用于实际场景,具有重要的应用价值和潜力。

📄 摘要(原文)

In this work, we address the critical yet underexplored challenge of symmetric multimodal-to-multimodal (MM2MM) retrieval, where queries and contexts are interchangeable. Existing universal multimodal retrieval works struggle with this task, as they are constrained by the labeled asymmetric datasets used. We produce SOLAR (Self-supervised jOint LeArning for symmetric multimodal Retrieval), a novel two-stage self-supervised framework that leverages readily available unlabeled web-scale image-text pairs. Based on the observation that both semantic alignment and discrepancies exist between two modalities, in the first stage, we learn the intersection mask of image-text pair, allowing us to align intersection while preserving semantic of difference. In the second stage, the learned mask is further utilized to construct positive and hardnegative samples via masking different parts of image/text, which enable us to conduct self-supervised multimodal embedding learning. Complementing this framework, we present a new benchmark featuring high-quality human-verified positive and hard-negative pairs to evaluate symmetric MM2MM retrieval under realistic conditions, as well as the corresponding pipeline. Extensive experiments against ten SOTA methods show SOLAR surpasses the strongest supervised VLM by 7.08 points on this benchmark, with over 50x fewer model parameters and a 5x smaller embedding dimension. Code and benchmark will be available soon.