MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment
作者: Juan Li, Chuanghao Ding, Xujie Zhang, Cam-Tu Nguyen
分类: cs.CV, cs.AI
发布日期: 2026-04-23
💡 一句话要点
MiMIC:缓解通用多模态检索中的视觉模态崩塌,避免语义错位
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 视觉模态崩塌 语义错位 decoder内融合 鲁棒训练 单模态混合 随机Caption Dropout
📋 核心要点
- 现有通用多模态检索方法存在视觉模态崩塌(过度依赖文本)或语义错位(语义相关内容距离远)的问题。
- MiMIC提出decoder内融合架构,有效整合多模态信息,并采用单模态混合和随机caption dropout进行鲁棒训练。
- 在WebQA+和EVQA+数据集上,MiMIC显著优于早期和晚期融合的基线方法,尤其是在图像缺少caption的情况下。
📝 摘要(中文)
通用多模态检索(UMR)旨在将不同的模态(例如,视觉和文本)映射到一个共享的嵌入空间,用于多模态检索。现有的UMR方法大致可以分为两类:早期融合方法,如Marvel,将视觉特征投影到语言模型(LM)空间中,以便与文本模态集成;以及晚期融合方法,如UniVL-DR,使用单独的编码器编码视觉和文本输入,并通过加法获得融合的嵌入。我们的初步研究表明,Marvel表现出视觉模态崩塌,其特征是模型倾向于忽略视觉特征,而过度依赖文本线索。相比之下,虽然UniVL-DR受此问题的影响较小,但它更容易受到语义错位的影响,即语义相关的内容在嵌入空间中相距甚远。为了应对这些挑战,我们提出了MiMIC,它引入了两项关键创新:(1)一种用于有效多模态集成的decoder内融合架构,以及(2)通过单模态混合和随机caption dropout实现的鲁棒训练。在WebQA+和EVQA+数据集上的实验表明,MiMIC始终优于早期和晚期融合基线,在这些数据集中,文档或查询中的图像可能缺少caption。
🔬 方法详解
问题定义:论文旨在解决通用多模态检索(UMR)中存在的两个主要问题:视觉模态崩塌和语义错位。视觉模态崩塌指的是模型过度依赖文本信息,忽略视觉信息,导致检索性能下降。语义错位指的是语义相关的内容在嵌入空间中距离较远,影响检索的准确性。现有方法,如Marvel,容易出现视觉模态崩塌,而UniVL-DR则更容易受到语义错位的影响。
核心思路:MiMIC的核心思路是通过一种新的融合架构和鲁棒的训练策略来缓解上述问题。decoder内融合架构旨在更有效地整合视觉和文本信息,避免模型过度依赖单一模态。鲁棒训练策略,包括单模态混合和随机caption dropout,旨在提高模型对噪声和缺失信息的鲁棒性,从而减少语义错位。
技术框架:MiMIC采用一种基于Transformer的decoder内融合架构。该架构首先使用独立的编码器分别编码视觉和文本输入。然后,将视觉特征注入到decoder中,与文本特征进行融合。decoder负责生成最终的融合嵌入,用于多模态检索。整体流程包括:视觉/文本编码 -> decoder内融合 -> 嵌入生成 -> 检索。
关键创新:MiMIC的关键创新在于decoder内融合架构和鲁棒训练策略。decoder内融合架构允许视觉信息在decoder的每一层与文本信息进行交互,从而实现更有效的多模态融合。鲁棒训练策略通过单模态混合和随机caption dropout来模拟真实场景中的噪声和缺失信息,提高模型的泛化能力。与现有方法相比,MiMIC能够更好地平衡视觉和文本信息,减少视觉模态崩塌和语义错位。
关键设计:MiMIC的关键设计包括:(1)decoder的层数和隐藏层大小;(2)单模态混合的比例,控制单模态数据在训练中的占比;(3)随机caption dropout的概率,控制caption被丢弃的概率;(4)损失函数的设计,可能包括对比损失、三元组损失等,用于优化嵌入空间的结构。
🖼️ 关键图片
📊 实验亮点
MiMIC在WebQA+和EVQA+数据集上取得了显著的性能提升。实验结果表明,MiMIC在各种设置下都优于现有的早期和晚期融合方法。尤其是在图像缺少caption的情况下,MiMIC的性能提升更为明显,验证了其鲁棒训练策略的有效性。具体性能数据未知,但论文强调了MiMIC相对于基线的持续优越性。
🎯 应用场景
MiMIC可应用于各种多模态检索场景,例如图像/视频检索、文档检索、问答系统等。在电商领域,可以用于根据用户输入的文本描述检索相关的商品图片。在教育领域,可以用于根据学生提出的问题检索相关的文档和图像。该研究有助于提升多模态检索的准确性和鲁棒性,具有重要的实际应用价值。
📄 摘要(原文)
Universal Multimodal Retrieval (UMR) aims to map different modalities (e.g., visual and textual) into a shared embedding space for multi-modal retrieval. Existing UMR methods can be broadly divided into two categories: early-fusion approaches, such as Marvel, which projects visual features into the language model (LM) space for integrating with text modality, and late-fusion approaches, such as UniVL-DR, which encode visual and textual inputs using separate encoders and obtain fused embeddings through addition. Our pilot study reveals that Marvel exhibits visual modality collapse, which is characterized by the model's tendency to disregard visual features while depending excessively on textual cues. In contrast, although UniVL-DR is less affected by this issue, it is more susceptible to semantic misalignment, where semantically related content is positioned far apart in the embedding space. To address these challenges, we propose MiMIC, which introduces two key innovations: (1) a fusion-in-decoder architecture for effective multimodal integration, and (2) robust training through single modality mixin and random caption dropout. Experiments on the WebQA+ and EVQA+ datasets, where image in documents or queries might lack captions, indicate that MiMIC consistently outperforms both early- and late-fusion baselines.