Hidden in the Multiplicative Interaction: Uncovering Fragility in Multimodal Contrastive Learning
作者: Tillmann Rheude, Stefan Hegselmann, Roland Eils, Benjamin Wild
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出Gated Symile,解决多模态对比学习中模态不可靠性问题,提升检索精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态对比学习 模态可靠性 门控机制 注意力机制 鲁棒性 三模态数据 跨模态检索
📋 核心要点
- 现有Symile方法在多模态对比学习中对称处理所有模态,忽略了模态可靠性差异,导致性能下降。
- Gated Symile通过注意力机制动态调整模态贡献,抑制不可靠输入,并引入NULL选项处理模态未对齐情况。
- 实验表明,Gated Symile在合成和真实数据集上均优于Symile和CLIP,提升了top-1检索精度。
📝 摘要(中文)
多模态对比学习正日益丰富,超越了图像-文本配对。在最新的对比学习方法中,Symile是一个强大的方法,因为它通过乘性交互目标捕捉高阶跨模态依赖关系。然而,我们发现Symile对称地处理所有模态,并且没有显式地建模可靠性差异,这种局限性在三模态乘性交互中尤为明显。在实践中,图像-文本对之外的模态可能未对齐、信息量弱或缺失,统一处理它们会悄无声息地降低性能。这种脆弱性可能隐藏在乘性交互中:即使单个不可靠的模态悄悄地破坏了乘积项,Symile也可能优于成对的CLIP。我们提出了Gated Symile,一种对比门控机制,它基于注意力,逐候选地调整模态贡献。该门通过将嵌入插值到可学习的中性方向并结合显式的NULL选项来抑制不可靠的输入,当可靠的跨模态对齐不太可能时。在一个受控的合成基准测试(揭示了这种脆弱性)和三个真实世界的三模态数据集(这种失败可能被平均值掩盖)中,Gated Symile实现了比经过良好调整的Symile和CLIP模型更高的top-1检索精度。更广泛地说,我们的结果强调了门控是朝着在不完美和多于两个模态的情况下实现鲁棒多模态对比学习迈出的一步。
🔬 方法详解
问题定义:论文旨在解决多模态对比学习中,由于不同模态数据质量参差不齐(如未对齐、信息量弱、缺失等)而导致的性能下降问题。现有方法,如Symile,平等对待所有模态,忽略了模态间的可靠性差异,尤其是在三模态或更多模态的情况下,不可靠的模态会严重影响学习效果。
核心思路:论文的核心思路是引入门控机制,动态地调整每个模态的贡献。通过学习每个模态的可靠性,并根据其可靠性自适应地调整其在对比学习过程中的权重。对于不可靠的模态,降低其贡献,甚至将其置为“NULL”,从而避免其对整体性能产生负面影响。
技术框架:Gated Symile的整体框架基于Symile,但在计算模态交互之前,增加了一个门控模块。该模块接收各个模态的嵌入作为输入,输出一个门控权重,用于调整对应模态的贡献。调整后的模态嵌入再进行乘性交互,用于对比学习。框架包含以下主要模块:1) 模态嵌入提取器;2) 注意力门控模块;3) 乘性交互模块;4) 对比学习损失函数。
关键创新:论文的关键创新在于提出了对比门控机制,该机制能够自适应地学习和调整每个模态的贡献。与现有方法相比,Gated Symile能够显式地建模模态的可靠性,并根据可靠性动态地调整其权重,从而提高了多模态对比学习的鲁棒性。此外,引入NULL选项,允许模型在模态完全不可靠时将其忽略,进一步提升了模型的适应性。
关键设计:注意力门控模块使用Transformer架构,接收各个模态的嵌入作为输入,通过自注意力机制学习模态间的依赖关系,并输出门控权重。门控权重用于对模态嵌入进行加权,从而调整其贡献。NULL选项通过引入一个可学习的中性方向来实现,当模态的可靠性低于阈值时,将其嵌入插值到该中性方向。对比学习损失函数采用InfoNCE损失,鼓励相似样本的嵌入更加接近,不相似样本的嵌入更加远离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gated Symile在合成数据集和三个真实世界的三模态数据集上均取得了显著的性能提升。在合成数据集上,Gated Symile能够有效应对模态缺失和噪声干扰,保持较高的检索精度。在真实数据集上,Gated Symile的top-1检索精度优于经过良好调整的Symile和CLIP模型,证明了其在实际应用中的有效性。
🎯 应用场景
该研究成果可应用于各种多模态数据分析场景,例如多模态医学影像诊断、多模态情感分析、多模态内容检索等。通过提高模型对不可靠模态的鲁棒性,可以提升这些应用在实际场景中的性能和可靠性,具有重要的实际应用价值。
📄 摘要(原文)
Multimodal contrastive learning is increasingly enriched by going beyond image-text pairs. Among recent contrastive methods, Symile is a strong approach for this challenge because its multiplicative interaction objective captures higher-order cross-modal dependence. Yet, we find that Symile treats all modalities symmetrically and does not explicitly model reliability differences, a limitation that becomes especially present in trimodal multiplicative interactions. In practice, modalities beyond image-text pairs can be misaligned, weakly informative, or missing, and treating them uniformly can silently degrade performance. This fragility can be hidden in the multiplicative interaction: Symile may outperform pairwise CLIP even if a single unreliable modality silently corrupts the product terms. We propose Gated Symile, a contrastive gating mechanism that adapts modality contributions on an attention-based, per-candidate basis. The gate suppresses unreliable inputs by interpolating embeddings toward learnable neutral directions and incorporating an explicit NULL option when reliable cross-modal alignment is unlikely. Across a controlled synthetic benchmark that uncovers this fragility and three real-world trimodal datasets for which such failures could be masked by averages, Gated Symile achieves higher top-1 retrieval accuracy than well-tuned Symile and CLIP models. More broadly, our results highlight gating as a step toward robust multimodal contrastive learning under imperfect and more than two modalities.