Safe Semi-Supervised Contrastive Learning Using In-Distribution Data as Positive Examples

📄 arXiv: 2408.01872v1 📥 PDF

作者: Min Gu Kwak, Hyungu Kahng, Seoung Bum Kim

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-08-03


💡 一句话要点

提出基于同分布数据正例的安全半监督对比学习方法,提升分布不匹配场景下的分类精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 半监督学习 对比学习 分布不匹配 OOD检测 图像分类

📋 核心要点

  1. 现有半监督学习方法在类分布匹配假设下表现良好,但在OOD数据存在时性能显著下降。
  2. 论文提出利用自监督对比学习,充分利用未标注数据,并设计损失函数将同类标注负样本聚合成正样本。
  3. 实验表明,该方法在类分布不匹配场景下,显著提升了图像分类精度,并产生了更好的数据表征。

📝 摘要(中文)

本文提出了一种安全半监督对比学习方法,旨在解决半监督学习在类分布不匹配场景下的性能退化问题,即未标注数据中存在out-of-distribution (OOD)数据。现有方法通过减少OOD数据对训练的影响来解决此问题,但可能丢失所有数据共享的基础信息。本文利用自监督对比学习充分挖掘大量未标注数据,并提出一种带系数调整的对比损失函数,将同类别的已标注负样本聚合为正样本。在CIFAR-10、CIFAR-100、Tiny ImageNet和CIFAR-100+Tiny ImageNet等数据集上,针对不同的不匹配比例进行了实验,结果表明自监督对比学习显著提高了分类精度,并且聚合同分布样本能够产生更好的表征,从而进一步提高分类精度。

🔬 方法详解

问题定义:论文旨在解决半监督学习在类分布不匹配场景下的性能下降问题。现有方法主要通过过滤OOD数据来避免其对训练的影响,但这种方式可能会丢失所有数据共享的通用信息,限制了模型学习更鲁棒特征的能力。

核心思路:论文的核心思路是利用自监督对比学习,充分挖掘未标注数据中包含的信息,同时通过特定的损失函数设计,将已标注数据中的同类别负样本聚合为正样本,从而增强模型对同分布数据的识别能力,并减少OOD数据的影响。

技术框架:整体框架包含数据预处理、特征提取、对比学习和分类器训练四个主要阶段。首先,对已标注和未标注数据进行预处理。然后,使用神经网络提取图像特征。接着,利用提出的对比损失函数进行对比学习,优化特征表示。最后,使用学习到的特征训练分类器。

关键创新:论文的关键创新在于将自监督对比学习应用于安全半监督学习,并设计了一种新的对比损失函数,该函数通过系数调整,将已标注数据中的同类别负样本聚合为正样本。这种方法既利用了未标注数据的信息,又考虑了已标注数据的类别信息,从而提高了模型在类分布不匹配场景下的鲁棒性。

关键设计:对比损失函数是关键设计之一,它包含一个系数schedule,用于控制同类别负样本聚合为正样本的程度。具体来说,该系数随着训练的进行逐渐增大,使得模型在初期关注全局特征的学习,后期更加关注类别信息的利用。此外,论文还可能涉及到特定的数据增强策略,以提高对比学习的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CIFAR-10、CIFAR-100、Tiny ImageNet和CIFAR-100+Tiny ImageNet等数据集上,该方法在不同的不匹配比例下均取得了显著的性能提升。具体来说,相比于传统的半监督学习方法,该方法能够提高分类精度,并且聚合同分布样本能够产生更好的表征,从而进一步提高分类精度。具体的数值提升幅度未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于图像识别、目标检测等领域,尤其是在数据标注成本高昂,且存在大量未标注数据和分布偏移的情况下。例如,在医疗图像分析中,标注医学图像需要专业知识,而未标注图像则相对容易获取。该方法可以有效利用这些未标注数据,提高疾病诊断的准确率。

📄 摘要(原文)

Semi-supervised learning methods have shown promising results in solving many practical problems when only a few labels are available. The existing methods assume that the class distributions of labeled and unlabeled data are equal; however, their performances are significantly degraded in class distribution mismatch scenarios where out-of-distribution (OOD) data exist in the unlabeled data. Previous safe semi-supervised learning studies have addressed this problem by making OOD data less likely to affect training based on labeled data. However, even if the studies effectively filter out the unnecessary OOD data, they can lose the basic information that all data share regardless of class. To this end, we propose to apply a self-supervised contrastive learning approach to fully exploit a large amount of unlabeled data. We also propose a contrastive loss function with coefficient schedule to aggregate as an anchor the labeled negative examples of the same class into positive examples. To evaluate the performance of the proposed method, we conduct experiments on image classification datasets - CIFAR-10, CIFAR-100, Tiny ImageNet, and CIFAR-100+Tiny ImageNet - under various mismatch ratios. The results show that self-supervised contrastive learning significantly improves classification accuracy. Moreover, aggregating the in-distribution examples produces better representation and consequently further improves classification accuracy.