InfoNCE Induces Gaussian Distribution

📄 arXiv: 2602.24012v1 📥 PDF

作者: Roy Betser, Eyal Gofer, Meir Yossef Levi, Guy Gilboa

分类: cs.LG, eess.SP

发布日期: 2026-02-27

备注: Accepted to ICLR 2026, Oral


💡 一句话要点

证明InfoNCE损失诱导对比学习表征呈高斯分布特性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对比学习 InfoNCE损失 高斯分布 表征学习 理论分析

📋 核心要点

  1. 对比学习依赖InfoNCE损失,但对其表征结构的理论理解不足,阻碍了更深入的分析和应用。
  2. 论文证明InfoNCE损失会使对比学习得到的表征趋向高斯分布,为理解表征结构提供了理论基础。
  3. 实验验证了在不同数据集和模型架构下,InfoNCE学习到的表征都表现出一致的高斯特性。

📝 摘要(中文)

对比学习已成为现代表征学习的基石,它允许使用大量的无标签数据进行训练,适用于特定任务和通用(基础)模型。InfoNCE及其变体是对比学习中的一种典型的损失函数。本文表明,InfoNCE目标函数会在对比训练中产生的表征中诱导出高斯结构。我们在两个互补的体系中确立了这一结果。首先,我们证明在一定的对齐和集中假设下,高维表征的投影渐近地接近多元高斯分布。其次,在不太严格的假设下,我们证明添加一个小的渐近消失的正则化项,以促进低特征范数和高特征熵,会导致类似的渐近结果。我们通过在合成和CIFAR-10数据集上,跨多个编码器架构和大小的实验来支持我们的分析,证明了一致的高斯行为。这种视角为对比表征中常见的Gaussianity提供了一个有原则的解释。由此产生的高斯模型能够对学习到的表征进行有原则的分析处理,并有望支持对比学习中的广泛应用。

🔬 方法详解

问题定义:对比学习中,InfoNCE损失被广泛使用,但对其学习到的表征的内在结构缺乏深入理解。现有方法难以从理论上解释和利用这些表征的特性,限制了对比学习的进一步发展。论文旨在揭示InfoNCE损失函数对表征空间的影响,特别是其是否以及如何影响表征的分布。

核心思路:论文的核心思路是证明InfoNCE损失会诱导表征空间呈现高斯分布。通过数学推导和实验验证,论文表明在一定条件下,InfoNCE优化的表征在高维空间中的投影会渐近地接近多元高斯分布。这种高斯特性为表征的分析和应用提供了便利。

技术框架:论文的技术框架主要包含两个部分:理论分析和实验验证。理论分析部分,论文在不同的假设条件下,推导了InfoNCE损失下表征分布的渐近性质。实验验证部分,论文在合成数据和真实数据集上,使用不同的编码器架构,验证了理论分析的正确性。整体流程是:提出假设 -> 数学推导 -> 实验验证。

关键创新:论文最重要的技术创新在于从理论上证明了InfoNCE损失与高斯分布之间的联系。以往的研究主要集中在优化InfoNCE损失以提高表征的质量,而忽略了对表征结构的分析。论文首次揭示了InfoNCE损失会诱导高斯分布,为理解对比学习的内在机制提供了新的视角。

关键设计:论文的关键设计包括:1) 对齐和集中假设,用于简化理论分析;2) 引入渐近消失的正则化项,以促进低特征范数和高特征熵;3) 使用合成数据和真实数据进行实验验证,以确保结果的可靠性。正则化项的设计旨在增强高斯特性,使其在更宽松的条件下成立。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在合成数据和CIFAR-10数据集上进行了实验,验证了理论分析的正确性。实验结果表明,在不同的编码器架构和大小下,InfoNCE学习到的表征都表现出一致的高斯特性。例如,论文展示了表征的投影与高斯分布的拟合程度,以及正则化项对高斯特性的影响。这些实验结果为InfoNCE损失与高斯分布之间的联系提供了有力的证据。

🎯 应用场景

该研究成果可应用于对比学习模型的分析、诊断和改进。例如,可以利用高斯模型对学习到的表征进行降维、聚类和异常检测。此外,该研究还可以指导对比学习损失函数的设计,例如,可以设计新的损失函数以更好地控制表征的分布,从而提高模型的性能。该研究为对比学习的理论分析和实际应用提供了新的思路。

📄 摘要(原文)

Contrastive learning has become a cornerstone of modern representation learning, allowing training with massive unlabeled data for both task-specific and general (foundation) models. A prototypical loss in contrastive training is InfoNCE and its variants. In this work, we show that the InfoNCE objective induces Gaussian structure in representations that emerge from contrastive training. We establish this result in two complementary regimes. First, we show that under certain alignment and concentration assumptions, projections of the high-dimensional representation asymptotically approach a multivariate Gaussian distribution. Next, under less strict assumptions, we show that adding a small asymptotically vanishing regularization term that promotes low feature norm and high feature entropy leads to similar asymptotic results. We support our analysis with experiments on synthetic and CIFAR-10 datasets across multiple encoder architectures and sizes, demonstrating consistent Gaussian behavior. This perspective provides a principled explanation for commonly observed Gaussianity in contrastive representations. The resulting Gaussian model enables principled analytical treatment of learned representations and is expected to support a wide range of applications in contrastive learning.