Representation Learning via Non-Contrastive Mutual Information
作者: Zhaohan Daniel Guo, Bernardo Avila Pires, Khimya Khetarpal, Dale Schuurmans, Bo Dai
分类: cs.LG, cs.AI, cs.CV, stat.ML
发布日期: 2025-04-23
💡 一句话要点
提出MINC非对比互信息最大化方法,提升自监督表征学习效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 表征学习 互信息 非对比学习 谱对比损失
📋 核心要点
- 现有自监督对比学习方法方差大,需要大批量数据;非对比学习方法易崩溃到常数向量。
- 提出MINC损失,将谱对比损失转化为非对比形式,降低方差,同时保留互信息最大化特性。
- 实验表明,MINC在ImageNet图像表征学习上优于谱对比损失基线,验证了其有效性。
📝 摘要(中文)
数据标注通常耗时且昂贵,导致我们拥有大量未标注数据。SimCLR和BYOL等自监督表征学习方法在从未标注图像数据中学习有意义的潜在表征方面非常成功,从而为下游任务生成更通用和可迁移的表征。广义上讲,自监督方法分为两种类型:1) 对比方法,如SimCLR;2) 非对比方法,如BYOL。对比方法通常试图最大化相关数据点之间的互信息,因此需要将每个数据点与每个其他数据点进行比较,导致高方差,因此需要大的批次大小才能良好工作。像BYOL这样的非对比方法具有低得多的方差,因为它们不需要进行成对比较,但实现起来更加棘手,因为它们可能崩溃到常数向量。在本文中,我们旨在开发一种结合两种类型优势的自监督目标。我们从一种称为谱对比损失(Spectral Contrastive Loss)的特定对比方法开始,并将其转换为更通用的非对比形式;这消除了成对比较,从而降低了方差,但保留了对比方法的互信息公式,防止了崩溃。我们将新的目标称为互信息非对比(Mutual Information Non-Contrastive, MINC)损失。我们通过在ImageNet上学习图像表征来测试MINC(类似于SimCLR和BYOL),并表明它始终优于谱对比损失基线。
🔬 方法详解
问题定义:论文旨在解决自监督表征学习中对比学习方法方差大、需要大批量数据,以及非对比学习方法容易发生模型坍塌的问题。现有对比学习方法需要进行成对比较,计算量大,方差高;非对比学习方法虽然避免了成对比较,但缺乏有效的约束,容易导致模型输出坍塌到常数向量。
核心思路:论文的核心思路是将对比学习中的互信息最大化思想融入到非对比学习框架中,从而在降低方差的同时,避免模型坍塌。具体来说,论文将谱对比损失(Spectral Contrastive Loss)转化为一种非对比形式,保留了互信息最大化的目标,同时消除了成对比较的需求。
技术框架:MINC方法的整体框架包括两个主要部分:数据增强和损失计算。首先,对输入图像进行数据增强,生成两个不同的视图。然后,通过编码器网络将这两个视图映射到潜在空间。最后,计算MINC损失,并利用该损失优化编码器网络。该框架与常见的自监督学习框架类似,但关键在于MINC损失的设计。
关键创新:论文最重要的技术创新点在于提出了MINC损失。MINC损失是一种非对比的互信息最大化损失,它通过谱分解的方式估计互信息,并避免了成对比较。与传统的对比损失相比,MINC损失具有更低的方差,更容易训练。与现有的非对比损失相比,MINC损失通过互信息最大化来防止模型坍塌。
关键设计:MINC损失的关键设计在于利用谱分解来估计互信息。具体来说,MINC损失首先计算两个视图在潜在空间的协方差矩阵,然后对该协方差矩阵进行谱分解,得到特征值和特征向量。最后,利用特征值来估计互信息,并将其作为损失函数的一部分。此外,论文还采用了一种动量更新的机制来稳定训练过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MINC损失在ImageNet数据集上学习到的图像表征优于谱对比损失基线。具体来说,使用MINC损失训练的模型在下游图像分类任务上取得了更高的准确率。例如,在线性评估协议下,MINC损失将Top-1准确率提高了1-2个百分点。这些结果表明,MINC损失是一种有效的自监督表征学习方法。
🎯 应用场景
该研究成果可广泛应用于计算机视觉领域的自监督表征学习任务,例如图像分类、目标检测、图像分割等。通过学习高质量的图像表征,可以提升下游任务的性能,并减少对标注数据的依赖。此外,该方法还可以应用于其他领域的自监督学习任务,例如自然语言处理和语音识别。
📄 摘要(原文)
Labeling data is often very time consuming and expensive, leaving us with a majority of unlabeled data. Self-supervised representation learning methods such as SimCLR (Chen et al., 2020) or BYOL (Grill et al., 2020) have been very successful at learning meaningful latent representations from unlabeled image data, resulting in much more general and transferable representations for downstream tasks. Broadly, self-supervised methods fall into two types: 1) Contrastive methods, such as SimCLR; and 2) Non-Contrastive methods, such as BYOL. Contrastive methods are generally trying to maximize mutual information between related data points, so they need to compare every data point to every other data point, resulting in high variance, and thus requiring large batch sizes to work well. Non-contrastive methods like BYOL have much lower variance as they do not need to make pairwise comparisons, but are much trickier to implement as they have the possibility of collapsing to a constant vector. In this paper, we aim to develop a self-supervised objective that combines the strength of both types. We start with a particular contrastive method called the Spectral Contrastive Loss (HaoChen et al., 2021; Lu et al., 2024), and we convert it into a more general non-contrastive form; this removes the pairwise comparisons resulting in lower variance, but keeps the mutual information formulation of the contrastive method preventing collapse. We call our new objective the Mutual Information Non-Contrastive (MINC) loss. We test MINC by learning image representations on ImageNet (similar to SimCLR and BYOL) and show that it consistently improves upon the Spectral Contrastive loss baseline.