Decipher the Modality Gap in Multimodal Contrastive Learning: From Convergent Representations to Pairwise Alignment

📄 arXiv: 2510.03268v2 📥 PDF

作者: Lingjie Yi, Raphael Douady, Chao Chen

分类: cs.LG, cs.AI

发布日期: 2025-09-27 (更新: 2025-10-07)


💡 一句话要点

理论分析多模态对比学习中的模态鸿沟,揭示维度坍塌是根本原因,并提出对齐方案。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对比学习 模态鸿沟 维度坍塌 表示学习 模态对齐

📋 核心要点

  1. 多模态对比学习存在模态鸿沟问题,不同模态的表示在嵌入空间中分离,影响下游任务性能。
  2. 论文通过理论框架分析MCL的收敛最优表示和模态对齐,揭示维度坍塌是模态鸿沟的根本原因。
  3. 证明在特定约束下,模态鸿沟收敛到超平面间的最小角度,并提出超平面旋转和共享空间投影的对齐方法。

📝 摘要(中文)

多模态对比学习(MCL)旨在将来自不同模态的数据嵌入到共享的嵌入空间中。然而,经验证据表明,来自不同模态的表示占据嵌入空间中完全独立的区域,这种现象被称为模态鸿沟。此外,关于模态鸿沟的大小如何影响下游性能的实验结果并不一致。这些观察结果提出了两个关键问题:(1)是什么导致了模态鸿沟?(2)它如何影响下游任务?为了解决这些问题,本文提出了第一个理论框架,用于分析MCL的收敛最优表示以及优化训练时的模态对齐。具体来说,我们证明了在没有任何约束或锥约束下,模态鸿沟收敛到零。在子空间约束下(即,由于维度坍塌,两种模态的表示落入两个不同的超平面),模态鸿沟收敛到两个超平面之间的最小角度。这一结果表明维度坍塌是模态鸿沟的根本原因。此外,我们的定理证明,在子空间约束下,成对样本无法完美对齐。模态鸿沟通过影响样本对之间的对齐来影响下游性能。我们证明,在这种情况下,仍然可以通过两种方式实现两种模态之间的完美对齐:超平面旋转和共享空间投影。

🔬 方法详解

问题定义:多模态对比学习旨在学习一个共享的嵌入空间,使得来自不同模态的相同实例的表示尽可能接近。然而,实际中观察到不同模态的表示往往位于嵌入空间的不同区域,形成“模态鸿沟”。现有方法缺乏对模态鸿沟成因的理论分析,以及模态鸿沟对下游任务性能影响的理解。此外,如何有效地对齐不同模态的表示仍然是一个挑战。

核心思路:论文的核心思路是通过理论分析,揭示模态鸿沟的根本原因是维度坍塌,即不同模态的表示落入不同的低维子空间。基于此,论文提出了两种对齐策略:超平面旋转和共享空间投影,旨在克服维度坍塌带来的影响,实现模态间的有效对齐。这样设计的目的是为了在理论上解释模态鸿沟,并提供可行的解决方案。

技术框架:论文构建了一个理论框架,用于分析多模态对比学习的收敛最优表示。该框架主要包含以下几个部分:1) 定义了不同约束条件下的MCL目标函数,包括无约束、锥约束和子空间约束;2) 推导了在不同约束条件下,模态鸿沟的收敛行为;3) 证明了维度坍塌是子空间约束下模态鸿沟的根本原因;4) 提出了超平面旋转和共享空间投影两种对齐策略。

关键创新:论文最重要的技术创新点在于:1) 首次从理论上分析了多模态对比学习中的模态鸿沟问题,并揭示了维度坍塌是其根本原因;2) 提出了超平面旋转和共享空间投影两种对齐策略,旨在克服维度坍塌带来的影响。与现有方法相比,该论文提供了更深入的理论理解,并提出了更有效的对齐方案。

关键设计:论文的关键设计包括:1) 使用不同的约束条件(无约束、锥约束、子空间约束)来模拟不同的学习场景;2) 通过数学推导,分析在不同约束条件下模态鸿沟的收敛行为;3) 设计超平面旋转和共享空间投影两种对齐策略,具体实现细节未知。

📊 实验亮点

论文通过理论分析证明,在子空间约束下,模态鸿沟收敛到两个超平面之间的最小角度,揭示了维度坍塌是模态鸿沟的根本原因。此外,论文提出了超平面旋转和共享空间投影两种对齐策略,为解决模态鸿沟问题提供了新的思路。具体的实验结果未知。

🎯 应用场景

该研究成果可应用于跨模态检索、多模态情感分析、多模态医学诊断等领域。通过减小模态鸿沟,可以提升多模态融合模型的性能,实现更准确、更鲁棒的跨模态信息处理。未来的研究可以探索更复杂的约束条件和更有效的对齐策略。

📄 摘要(原文)

Multimodal contrastive learning (MCL) aims to embed data from different modalities in a shared embedding space. However, empirical evidence shows that representations from different modalities occupy completely separate regions of embedding space, a phenomenon referred to as the modality gap. Moreover, experimental findings on how the size of the modality gap influences downstream performance are inconsistent. These observations raise two key questions: (1) What causes the modality gap? (2) How does it affect downstream tasks? To address these questions, this paper introduces the first theoretical framework for analyzing the convergent optimal representations of MCL and the modality alignment when training is optimized. Specifically, we prove that without any constraint or under the cone constraint, the modality gap converges to zero. Under the subspace constraint (i.e., representations of two modalities fall into two distinct hyperplanes due to dimension collapse), the modality gap converges to the smallest angle between the two hyperplanes. This result identifies \emph{dimension collapse} as the fundamental origin of the modality gap. Furthermore, our theorems demonstrate that paired samples cannot be perfectly aligned under the subspace constraint. The modality gap influences downstream performance by affecting the alignment between sample pairs. We prove that, in this case, perfect alignment between two modalities can still be achieved via two ways: hyperplane rotation and shared space projection.