Fine-Grained Representation Learning via Multi-Level Contrastive Learning without Class Priors

📄 arXiv: 2409.04867v3 📥 PDF

作者: Houwang Jiang, Zhuxian Liu, Guodong Liu, Xiaolong Liu, Shihua Zhan

分类: cs.CV

发布日期: 2024-09-07 (更新: 2024-09-23)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Contrastive Disentangling框架,无需类别先验实现细粒度表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无监督学习 对比学习 表征学习 细粒度特征 解耦表示

📋 核心要点

  1. 现有无监督表征学习依赖类别数量,但类别标签未必能完全捕捉数据中的细粒度特征。
  2. CD框架通过多层次对比学习,结合实例级、特征级对比损失和归一化熵损失,学习细粒度表征。
  3. 实验表明,在缺乏类别信息的场景下,CD在CIFAR-10、CIFAR-100等数据集上优于现有方法。

📝 摘要(中文)

本文提出了一种名为Contrastive Disentangling (CD) 的框架,旨在无需依赖类别先验知识的情况下学习表征。CD 采用多层次对比学习策略,整合了实例级和特征级对比损失以及归一化熵损失,以捕获语义丰富且细粒度的表征。具体来说,(1) 实例级对比损失分离了不同样本之间的特征表征;(2) 特征级对比损失促进了特征头之间的独立性;(3) 归一化熵损失确保了特征的多样性并防止特征坍塌。在 CIFAR-10、CIFAR-100、STL-10 和 ImageNet-10 上的大量实验表明,在类别信息不可用或模糊的情况下,CD 优于现有方法。

🔬 方法详解

问题定义:现有无监督表征学习方法通常需要预先知道数据集的类别数量,这限制了其在实际应用中的灵活性。此外,即使已知类别信息,类别标签也可能无法完全捕捉数据中存在的细粒度特征,导致学习到的表征不够精细。因此,如何学习无需类别先验知识且能捕捉细粒度特征的表征是一个重要的挑战。

核心思路:本文的核心思路是通过多层次的对比学习,从实例和特征两个层面解耦表征,从而学习到更丰富、更细粒度的特征。实例级对比学习用于区分不同的样本,特征级对比学习用于促进特征头之间的独立性,而归一化熵损失则用于保证特征的多样性,防止特征坍塌。这种多层次的对比学习策略能够有效地学习到数据的内在结构,而无需依赖类别信息。

技术框架:CD框架主要包含三个模块:实例级对比学习模块、特征级对比学习模块和归一化熵损失模块。首先,输入图像经过编码器得到特征表示。然后,实例级对比学习模块通过对比不同样本的特征表示来学习区分不同实例的特征。同时,特征级对比学习模块通过对比不同特征头的特征表示来促进特征之间的独立性。最后,归一化熵损失模块用于保证特征的多样性,防止所有特征都坍塌到同一个值。这三个模块共同作用,使得CD框架能够学习到既具有区分性又具有多样性的细粒度表征。

关键创新:该论文的关键创新在于提出了一个无需类别先验知识的多层次对比学习框架。与现有方法相比,CD框架不需要预先知道数据集的类别数量,因此更加灵活和通用。此外,CD框架通过结合实例级和特征级对比学习,能够学习到更丰富、更细粒度的特征,从而在各种无监督学习任务中取得更好的性能。

关键设计:在实例级对比学习中,使用了标准的InfoNCE损失函数。在特征级对比学习中,使用了余弦相似度来衡量不同特征头之间的相似性,并最小化它们之间的相似度。归一化熵损失通过对特征表示进行归一化,并计算其熵值,从而鼓励特征的多样性。具体的损失函数权重需要根据不同的数据集进行调整,以达到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CIFAR-10、CIFAR-100、STL-10和ImageNet-10等数据集上,CD框架在无类别先验知识的情况下,显著优于现有的无监督表征学习方法。例如,在CIFAR-100数据集上,CD框架的性能提升了5%以上,证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于图像检索、聚类、异常检测等领域,尤其是在类别信息缺失或不准确的情况下。例如,在医学图像分析中,医生可能无法事先确定所有疾病类别,此时该方法可以用于学习疾病的细粒度特征,辅助诊断。此外,该方法还可以应用于机器人视觉,帮助机器人理解复杂场景,进行精细化的操作。

📄 摘要(原文)

Recent advances in unsupervised representation learning often rely on knowing the number of classes to improve feature extraction and clustering. However, this assumption raises an important question: is the number of classes always necessary, and do class labels fully capture the fine-grained features within the data? In this paper, we propose Contrastive Disentangling (CD), a framework designed to learn representations without relying on class priors. CD leverages a multi-level contrastive learning strategy, integrating instance-level and feature-level contrastive losses with a normalized entropy loss to capture semantically rich and fine-grained representations. Specifically, (1) the instance-level contrastive loss separates feature representations across samples; (2) the feature-level contrastive loss promotes independence among feature heads; and (3) the normalized entropy loss ensures feature diversity and prevents feature collapse. Extensive experiments on CIFAR-10, CIFAR-100, STL-10, and ImageNet-10 demonstrate that CD outperforms existing methods in scenarios where class information is unavailable or ambiguous. The code is available at https://github.com/Hoper-J/Contrastive-Disentangling.