Revisiting semi-supervised learning in the era of foundation models

📄 arXiv: 2503.09707v4 📥 PDF

作者: Ping Zhang, Zheda Mai, Quang-Huy Nguyen, Wei-Lun Chao

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-03-12 (更新: 2025-11-04)

备注: The paper has been accepted to NeurIPS 2025. Ping Zhang and Zheda Mai contributed equally to this work


💡 一句话要点

针对视觉基础模型,提出基于集成伪标签的半监督自训练方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 视觉基础模型 自训练 伪标签 参数高效微调 集成学习 计算机视觉

📋 核心要点

  1. 现有半监督学习方法在视觉基础模型上表现不佳,且未充分利用预训练模型的优势。
  2. 提出一种基于集成伪标签的自训练方法,利用参数高效微调模型生成更可靠的伪标签。
  3. 实验表明,该方法在新的SSL基准数据集上有效提升了性能,验证了其可行性。

📝 摘要(中文)

半监督学习(SSL)利用大量的无标签数据和有限的标签数据来增强学习效果。随着视觉基础模型(VFMs)日益成为视觉应用的主干,SSL与这些预训练模型如何交互仍不清楚。为了解决这个差距,我们开发了新的SSL基准数据集,在这些数据集上,冻结的VFMs表现不佳,并系统地评估了具有代表性的SSL方法。我们做出了一个令人惊讶的观察:仅使用标签数据的参数高效微调(PEFT)通常与SSL性能相匹配,即使不利用无标签数据。这促使我们重新审视自训练,一种概念上简单的SSL基线,我们使用监督的PEFT模型来伪标记无标签数据以进行进一步训练。为了克服噪声伪标签的臭名昭著的问题,我们提出了集成多种PEFT方法和VFM骨干网络来产生更鲁棒的伪标签。实验结果验证了这种简单而强大的方法的有效性,为VFMs的SSL提供了可操作的见解,并为基础模型时代中更具可扩展性和实用性的半监督学习铺平了道路。

🔬 方法详解

问题定义:论文旨在研究在视觉基础模型(VFMs)时代,半监督学习(SSL)如何更有效地利用大量无标签数据提升模型性能。现有SSL方法在VFMs上表现不佳,且参数高效微调(PEFT)仅使用少量标签数据就能达到相当的性能,这表明现有方法未充分挖掘VFMs的潜力。噪声伪标签是自训练方法中的一个关键痛点。

核心思路:论文的核心思路是重新审视自训练方法,并利用参数高效微调后的视觉基础模型生成伪标签。为了解决伪标签噪声问题,采用集成学习的思想,通过集成多个PEFT模型和不同的VFM骨干网络,生成更鲁棒、更可靠的伪标签,从而提升自训练的效果。

技术框架:整体框架包含以下几个主要阶段:1) 使用少量标签数据对视觉基础模型进行参数高效微调(PEFT),得到多个微调后的模型。2) 使用这些微调后的模型对无标签数据进行预测,生成伪标签。3) 通过集成多个模型的预测结果,得到更鲁棒的伪标签。4) 使用带有伪标签的无标签数据和原始标签数据,再次训练模型。

关键创新:最重要的技术创新点在于利用集成学习的思想,通过集成多个PEFT模型和不同的VFM骨干网络来生成更鲁棒的伪标签。与传统的自训练方法相比,该方法能够有效降低伪标签的噪声,从而提升自训练的效果。此外,论文还发现,即使不使用无标签数据,PEFT也能达到不错的性能,这为SSL的研究提供了新的视角。

关键设计:关键设计包括:1) 选择合适的参数高效微调方法,例如Adapter、LoRA等。2) 选择合适的视觉基础模型,例如ViT、ConvNeXt等。3) 设计合适的集成策略,例如投票、加权平均等。4) 设计合适的损失函数,例如交叉熵损失、一致性损失等。论文中未明确给出具体的参数设置和网络结构细节,这部分可能需要参考具体的实验设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的基于集成伪标签的自训练方法在新的SSL基准数据集上取得了显著的性能提升。与传统的自训练方法相比,该方法能够有效降低伪标签的噪声,从而提升自训练的效果。此外,实验还发现,即使不使用无标签数据,PEFT也能达到不错的性能,这为SSL的研究提供了新的视角。

🎯 应用场景

该研究成果可应用于图像分类、目标检测、语义分割等多种计算机视觉任务中,尤其适用于标签数据稀缺的场景。通过利用大量无标签数据,可以显著提升模型的泛化能力和鲁棒性,降低对人工标注数据的依赖,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Semi-supervised learning (SSL) leverages abundant unlabeled data alongside limited labeled data to enhance learning. As vision foundation models (VFMs) increasingly serve as the backbone of vision applications, it remains unclear how SSL interacts with these pre-trained models. To address this gap, we develop new SSL benchmark datasets where frozen VFMs underperform and systematically evaluate representative SSL methods. We make a surprising observation: parameter-efficient fine-tuning (PEFT) using only labeled data often matches SSL performance, even without leveraging unlabeled data. This motivates us to revisit self-training, a conceptually simple SSL baseline, where we use the supervised PEFT model to pseudo-label unlabeled data for further training. To overcome the notorious issue of noisy pseudo-labels, we propose ensembling multiple PEFT approaches and VFM backbones to produce more robust pseudo-labels. Empirical results validate the effectiveness of this simple yet powerful approach, providing actionable insights into SSL with VFMs and paving the way for more scalable and practical semi-supervised learning in the era of foundation models.