Co-Training with Active Contrastive Learning and Meta-Pseudo-Labeling on 2D Projections for Deep Semi-Supervised Learning

📄 arXiv: 2504.18666v1 📥 PDF

作者: David Aparco-Cardenas, Jancarlo F. Gomes, Alexandre X. Falcão, Pedro J. de Rezende

分类: cs.CV

发布日期: 2025-04-25

备注: Submitted to Journal of the Brazilian Computer Society (JBCS) [https://journals-sol.sbc.org.br]


💡 一句话要点

提出active-DeepFA,结合主动对比学习与元伪标签,提升半监督图像分类在小样本生物图像上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 半监督学习 主动学习 对比学习 元伪标签 协同训练 图像分类 生物图像

📋 核心要点

  1. 现有半监督学习方法依赖预训练特征和大型验证集,且忽略了信息量大的样本选择,限制了其在标注数据稀缺场景下的应用。
  2. active-DeepFA结合对比学习、元伪标签和主动学习,通过协同训练减轻伪标签偏差,并选择信息量大的样本进行标注。
  3. 在生物图像数据集上,仅使用5%的标注数据,active-DeepFA超越了现有方法,并用3%的数据达到相当效果,显著降低标注成本。

📝 摘要(中文)

深度学习模型训练面临的主要挑战是精确标注数据的稀缺。在数据标注耗时且容易出错的领域,这一问题尤为突出。半监督学习(SSL)通过利用少量标注数据和大量未标注数据来应对这一挑战。然而,目前最先进的方法通常依赖于预训练特征和大型验证集来学习有效的分类表示。此外,减少的标注数据集通常是随机抽样的,忽略了选择更具信息量的样本。本文提出active-DeepFA,一种有效结合对比学习(CL)、基于教师-学生模型的元伪标签和主动学习(AL)的方法,用于在标注数据稀缺和未标注数据丰富的场景下训练非预训练的CNN架构进行图像分类。它将DeepFA集成到协同训练设置中,实现两个协同网络以减轻伪标签的确认偏差。该方法首先使用监督对比学习预热网络,使用减少的标注样本集。之后,以规则的epoch间隔,在网络深度特征的2D投影上执行标签传播。接下来,最可靠的伪标签在网络之间以交叉训练的方式交换,而最有意义的样本被标注并添加到标注集中。网络独立地最小化包含监督对比损失、监督损失和半监督损失分量的目标损失函数,从而增强图像分类的表示。我们的方法在三个具有挑战性的生物图像数据集上进行了评估,仅使用5%的标注样本,改进了基线方法,并优于其他六种最先进的方法。此外,它仅使用3%的标注数据即可达到与其同类方法相当的结果,从而减少了标注工作量。

🔬 方法详解

问题定义:论文旨在解决深度学习模型在标注数据极度匮乏情况下,如何有效利用大量未标注数据进行图像分类的问题。现有半监督学习方法通常依赖预训练模型,且随机采样标注数据,忽略了样本的信息量,导致模型性能受限,尤其是在生物图像等领域,标注成本高昂。

核心思路:论文的核心思路是结合主动学习、对比学习和元伪标签技术,构建一个协同训练框架。通过主动学习选择信息量大的样本进行标注,对比学习增强特征表示,元伪标签生成高质量的伪标签,并利用协同训练减轻伪标签的确认偏差,从而提升模型在小样本情况下的泛化能力。

技术框架:active-DeepFA方法包含以下主要阶段: 1. 监督对比学习预热:使用少量标注数据,通过监督对比学习预训练两个CNN网络。 2. 标签传播:在网络深度特征的2D投影上进行标签传播,为未标注数据生成伪标签。 3. 伪标签交换与主动学习:两个网络互相交换最可靠的伪标签,并选择信息量最大的样本进行人工标注。 4. 协同训练:两个网络独立最小化包含监督对比损失、监督损失和半监督损失的联合损失函数,进行协同训练。

关键创新:该方法最重要的创新点在于将主动学习与基于元伪标签的协同训练相结合。传统协同训练容易受到伪标签噪声的影响,而主动学习能够选择更有价值的样本进行标注,从而提高伪标签的质量,并减轻确认偏差。同时,使用对比学习增强特征表示,进一步提升模型性能。

关键设计: * 损失函数:采用联合损失函数,包含监督对比损失(用于增强特征表示)、监督损失(用于利用标注数据)和半监督损失(用于利用伪标签)。 * 主动学习策略:使用基于不确定性的采样策略,选择网络预测置信度低的样本进行标注。 * 元伪标签生成:使用教师-学生模型生成伪标签,并采用一致性正则化方法提高伪标签的可靠性。 * 协同训练框架:使用两个独立的CNN网络进行协同训练,减轻伪标签的确认偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在三个生物图像数据集上,仅使用5%的标注数据,active-DeepFA显著优于现有半监督学习方法,并用3%的数据达到与其同类方法相当的效果。这表明该方法能够有效利用未标注数据,并显著降低标注成本,具有很强的实际应用价值。

🎯 应用场景

该研究成果可广泛应用于医学图像分析、生物图像识别等领域,尤其是在标注数据获取困难的场景下。例如,可以辅助医生进行疾病诊断、细胞识别等任务,降低人工标注成本,提高诊断效率和准确性。未来,该方法有望推广到其他小样本学习任务中。

📄 摘要(原文)

A major challenge that prevents the training of DL models is the limited availability of accurately labeled data. This shortcoming is highlighted in areas where data annotation becomes a time-consuming and error-prone task. In this regard, SSL tackles this challenge by capitalizing on scarce labeled and abundant unlabeled data; however, SoTA methods typically depend on pre-trained features and large validation sets to learn effective representations for classification tasks. In addition, the reduced set of labeled data is often randomly sampled, neglecting the selection of more informative samples. Here, we present active-DeepFA, a method that effectively combines CL, teacher-student-based meta-pseudo-labeling and AL to train non-pretrained CNN architectures for image classification in scenarios of scarcity of labeled and abundance of unlabeled data. It integrates DeepFA into a co-training setup that implements two cooperative networks to mitigate confirmation bias from pseudo-labels. The method starts with a reduced set of labeled samples by warming up the networks with supervised CL. Afterward and at regular epoch intervals, label propagation is performed on the 2D projections of the networks' deep features. Next, the most reliable pseudo-labels are exchanged between networks in a cross-training fashion, while the most meaningful samples are annotated and added into the labeled set. The networks independently minimize an objective loss function comprising supervised contrastive, supervised and semi-supervised loss components, enhancing the representations towards image classification. Our approach is evaluated on three challenging biological image datasets using only 5% of labeled samples, improving baselines and outperforming six other SoTA methods. In addition, it reduces annotation effort by achieving comparable results to those of its counterparts with only 3% of labeled data.