Training a Student Expert via Semi-Supervised Foundation Model Distillation

📄 arXiv: 2604.03841 📥 PDF

作者: Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出半监督知识蒸馏框架,用于将视觉基础模型压缩为轻量级专家模型,提升实例分割性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 知识蒸馏 视觉基础模型 实例分割 对比学习 领域自适应 模型压缩

📋 核心要点

  1. 现有视觉基础模型计算量大,难以部署,且适应特定任务通常需要昂贵的标注数据。
  2. 提出一种半监督知识蒸馏框架,利用有限标注和大量无标注数据,将视觉基础模型压缩为轻量级专家模型。
  3. 实验表明,该方法在Cityscapes和ADE20K数据集上显著提升了实例分割的性能,超越了现有方法。

📝 摘要(中文)

本文提出了一种半监督知识蒸馏(SSKD)框架,旨在将预训练的视觉基础模型(VFM)压缩为紧凑的专家模型,利用有限的标注数据和大量的无标注数据。该框架应用于实例分割任务,因为像素级别的标注成本很高。框架分为三个阶段:(1)通过对比校准的自训练进行VFM的领域自适应;(2)通过统一的多目标损失进行知识迁移;(3)学生模型精炼,以减轻残余伪标签偏差。该方法的核心是实例感知的像素级对比损失,它融合了mask和类别分数,以提取信息丰富的负样本,并强制执行清晰的实例间间隔。通过在自适应和蒸馏过程中保持这种对比信号,可以对齐教师和学生模型的嵌入,并更有效地利用未标注图像。在Cityscapes和ADE20K数据集上,我们体积缩小约11倍的学生模型,相比于零样本VFM教师模型,分别提升了+11.9和+8.6 AP,超过了自适应后的教师模型+3.4和+1.5 AP,并且优于基准测试中最新的SSKD方法。

🔬 方法详解

问题定义:论文旨在解决视觉基础模型(VFMs)计算量大、难以部署,且微调需要大量标注数据的问题。现有方法在将VFMs应用于特定任务时,往往需要大量的标注数据进行微调,这在标注成本高的任务(如实例分割)中尤其困难。因此,如何利用有限的标注数据和大量的无标注数据,将VFMs压缩为轻量级、高性能的专家模型是一个关键挑战。

核心思路:论文的核心思路是利用半监督知识蒸馏(SSKD)框架,将预训练的VFMs的知识迁移到更小的学生模型中。通过自训练和对比学习,学生模型可以从无标注数据中学习,并模仿教师模型的行为。同时,通过知识蒸馏,学生模型可以学习教师模型的预测结果,从而提高性能。这种方法可以在有限标注数据的情况下,有效地利用VFMs的知识,并生成轻量级的专家模型。

技术框架:该SSKD框架包含三个主要阶段:(1)领域自适应:使用对比校准的自训练方法,使VFM适应目标领域。具体来说,利用VFM对无标注数据进行预测,生成伪标签,并使用对比学习方法,使VFM学习到更具区分性的特征表示。(2)知识迁移:使用统一的多目标损失函数,将VFM的知识迁移到学生模型。该损失函数包括分类损失、分割损失和对比损失,旨在使学生模型模仿教师模型的预测结果,并学习到相似的特征表示。(3)学生模型精炼:通过迭代训练,减轻伪标签偏差,进一步提高学生模型的性能。

关键创新:该论文的关键创新在于提出了一个实例感知的像素级对比损失。该损失函数融合了mask和类别分数,以提取信息丰富的负样本,并强制执行清晰的实例间间隔。通过在自适应和蒸馏过程中保持这种对比信号,可以对齐教师和学生模型的嵌入,并更有效地利用未标注图像。这种对比损失可以帮助学生模型更好地理解图像中的实例关系,从而提高实例分割的性能。

关键设计:论文中使用的对比损失函数是关键设计之一。该损失函数基于InfoNCE损失,并针对实例分割任务进行了改进。具体来说,该损失函数考虑了像素级别的特征表示,并利用mask和类别分数来选择负样本。此外,论文还使用了多目标损失函数,该损失函数包括分类损失、分割损失和对比损失,并对不同的损失项进行了加权。这些设计使得学生模型可以有效地学习教师模型的知识,并提高实例分割的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Cityscapes和ADE20K数据集上取得了显著的性能提升。在Cityscapes数据集上,体积缩小约11倍的学生模型,相比于零样本VFM教师模型,AP提升了+11.9,超过了自适应后的教师模型+3.4 AP。在ADE20K数据集上,学生模型相比于零样本VFM教师模型,AP提升了+8.6,超过了自适应后的教师模型+1.5 AP。此外,该方法还优于基准测试中最新的SSKD方法,证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于需要高性能、低计算成本的视觉任务中,例如自动驾驶、机器人导航、智能监控等。通过将大型视觉基础模型压缩为轻量级专家模型,可以降低部署成本,提高推理速度,从而使这些应用在资源受限的设备上也能高效运行。此外,该方法还可以应用于其他需要大量标注数据的视觉任务,例如医学图像分析、遥感图像分析等。

📄 摘要(原文)

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our $\approx 11\times$ smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.