Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses
作者: Panagiotis Koromilas, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis Nicolaou, Yannis Panagakis
分类: cs.LG, cs.CV
发布日期: 2024-05-28
备注: Accepted at ICML 2024. Code available at: https://github.com/pakoromilas/DHEL-KCL.git
💡 一句话要点
对比学习中,从InfoNCE到核方法的损失函数统一性分析与新损失函数DHEL的提出
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比学习 表征学习 超球面能量最小化 核方法 损失函数 维度坍塌 解耦学习
📋 核心要点
- 现有对比学习方法众多,但不同损失函数的优化目标和内在联系尚不明确,缺乏统一的理论分析。
- 论文通过分析多种对比学习损失函数,揭示了它们在特定条件下与超球面能量最小化问题的联系,并提出了新的解耦超球面能量损失DHEL。
- 实验结果表明,提出的DHEL损失函数在不同批次大小和超参数下,能够提升下游任务的性能和鲁棒性,并减少维度坍塌。
📝 摘要(中文)
本文旨在揭示不同对比学习(CL)损失函数实际优化目标上的差异。尽管多种CL方法展现了卓越的表征学习能力,但其内部机制的差异仍然不明确。本文分析了几种CL方法,证明在特定条件下,当优化批次级别目标或其渐近期望时,它们具有相同的极小值。在两种情况下,都与超球面能量最小化(HEM)问题密切相关。受此启发,本文提出了一种新的CL目标,称为解耦超球面能量损失(DHEL)。DHEL通过将目标超球面能量与正样本的对齐解耦来简化问题,同时保留相同的理论保证。更进一步,本文证明了相同的结论也适用于另一类相关的CL方法,即核对比学习(KCL),并且期望损失与批次大小无关,从而识别了非渐近状态下的极小值。实验结果表明,在多个计算机视觉数据集上,不同批次大小和超参数组合下,下游性能和鲁棒性得到提高,并且维度坍塌现象减少。
🔬 方法详解
问题定义:对比学习旨在学习数据的有效表征,但不同的对比学习损失函数,如InfoNCE,各自的优化目标和内在联系并不清晰。现有方法缺乏对这些损失函数在理论上的统一分析,以及在不同批次大小下的性能表现的深入理解。维度坍塌也是对比学习中常见的问题。
核心思路:论文的核心思路是通过数学分析,揭示不同对比学习损失函数在特定条件下与超球面能量最小化(HEM)问题的联系。基于此,论文提出一种新的解耦超球面能量损失(DHEL),旨在简化优化过程,同时保留理论保证。此外,论文还分析了核对比学习(KCL)的性质,证明其期望损失与批次大小无关。
技术框架:论文的整体框架包括以下几个部分:1) 对现有对比学习损失函数(如InfoNCE)进行数学分析,证明其在特定条件下与HEM问题的等价性。2) 基于HEM问题,提出新的DHEL损失函数,该损失函数将超球面能量最小化与正样本对齐解耦。3) 分析核对比学习(KCL)的性质,证明其期望损失与批次大小无关。4) 通过实验验证DHEL和KCL在不同数据集和设置下的性能。
关键创新:论文的关键创新点在于:1) 揭示了不同对比学习损失函数与超球面能量最小化问题之间的联系,为理解对比学习的内在机制提供了新的视角。2) 提出了新的解耦超球面能量损失(DHEL),该损失函数简化了优化过程,同时保留了理论保证。3) 证明了核对比学习(KCL)的期望损失与批次大小无关,这对于在小批量情况下使用对比学习具有重要意义。
关键设计:DHEL损失函数的关键设计在于将超球面能量最小化与正样本对齐解耦。具体来说,DHEL损失函数包含两部分:一部分负责最小化表征在超球面上的能量,另一部分负责对齐正样本的表征。这种解耦的设计使得优化过程更加稳定,并且可以避免维度坍塌。KCL的关键在于使用核函数来度量样本之间的相似性,这使得KCL可以处理非线性关系,并且其期望损失与批次大小无关。
📊 实验亮点
实验结果表明,提出的DHEL损失函数在多个计算机视觉数据集上,如CIFAR-10和ImageNet,能够提升下游任务的性能和鲁棒性。与InfoNCE等基线方法相比,DHEL在不同批次大小和超参数组合下表现更稳定,并且能够有效减少维度坍塌。此外,KCL方法在小批量情况下也表现出良好的性能。
🎯 应用场景
该研究成果可应用于各种需要学习有效数据表征的领域,如图像识别、自然语言处理、推荐系统等。DHEL损失函数和KCL方法可以提高对比学习的性能和鲁棒性,尤其是在小批量和高维数据的情况下。该研究有助于推动对比学习在实际应用中的发展。
📄 摘要(原文)
What do different contrastive learning (CL) losses actually optimize for? Although multiple CL methods have demonstrated remarkable representation learning capabilities, the differences in their inner workings remain largely opaque. In this work, we analyse several CL families and prove that, under certain conditions, they admit the same minimisers when optimizing either their batch-level objectives or their expectations asymptotically. In both cases, an intimate connection with the hyperspherical energy minimisation (HEM) problem resurfaces. Drawing inspiration from this, we introduce a novel CL objective, coined Decoupled Hyperspherical Energy Loss (DHEL). DHEL simplifies the problem by decoupling the target hyperspherical energy from the alignment of positive examples while preserving the same theoretical guarantees. Going one step further, we show the same results hold for another relevant CL family, namely kernel contrastive learning (KCL), with the additional advantage of the expected loss being independent of batch size, thus identifying the minimisers in the non-asymptotic regime. Empirical results demonstrate improved downstream performance and robustness across combinations of different batch sizes and hyperparameters and reduced dimensionality collapse, on several computer vision datasets.