Training a Student Expert via Semi-Supervised Foundation Model Distillation

作者: Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出半监督知识蒸馏框架，用于将视觉基础模型压缩为轻量级专家模型，提升实例分割性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 知识蒸馏 视觉基础模型 实例分割 对比学习 领域自适应 模型压缩

📋 核心要点

现有视觉基础模型计算量大，难以部署，且适应特定任务通常需要昂贵的标注数据。
提出一种半监督知识蒸馏框架，利用有限标注和大量无标注数据，将视觉基础模型压缩为轻量级专家模型。
实验表明，该方法在Cityscapes和ADE20K数据集上显著提升了实例分割的性能，超越了现有方法。

📝 摘要（中文）

本文提出了一种半监督知识蒸馏（SSKD）框架，旨在将预训练的视觉基础模型（VFM）压缩为紧凑的专家模型，利用有限的标注数据和大量的无标注数据。该框架应用于实例分割任务，因为像素级别的标注成本很高。框架分为三个阶段：（1）通过对比校准的自训练进行VFM的领域自适应；（2）通过统一的多目标损失进行知识迁移；（3）学生模型精炼，以减轻残余伪标签偏差。该方法的核心是实例感知的像素级对比损失，它融合了mask和类别分数，以提取信息丰富的负样本，并强制执行清晰的实例间间隔。通过在自适应和蒸馏过程中保持这种对比信号，可以对齐教师和学生模型的嵌入，并更有效地利用未标注图像。在Cityscapes和ADE20K数据集上，我们体积缩小约11倍的学生模型，相比于零样本VFM教师模型，分别提升了+11.9和+8.6 AP，超过了自适应后的教师模型+3.4和+1.5 AP，并且优于基准测试中最新的SSKD方法。

🔬 方法详解

问题定义：论文旨在解决视觉基础模型（VFMs）计算量大、难以部署，且微调需要大量标注数据的问题。现有方法在将VFMs应用于特定任务时，往往需要大量的标注数据进行微调，这在标注成本高的任务（如实例分割）中尤其困难。因此，如何利用有限的标注数据和大量的无标注数据，将VFMs压缩为轻量级、高性能的专家模型是一个关键挑战。

核心思路：论文的核心思路是利用半监督知识蒸馏（SSKD）框架，将预训练的VFMs的知识迁移到更小的学生模型中。通过自训练和对比学习，学生模型可以从无标注数据中学习，并模仿教师模型的行为。同时，通过知识蒸馏，学生模型可以学习教师模型的预测结果，从而提高性能。这种方法可以在有限标注数据的情况下，有效地利用VFMs的知识，并生成轻量级的专家模型。

技术框架：该SSKD框架包含三个主要阶段：（1）领域自适应：使用对比校准的自训练方法，使VFM适应目标领域。具体来说，利用VFM对无标注数据进行预测，生成伪标签，并使用对比学习方法，使VFM学习到更具区分性的特征表示。（2）知识迁移：使用统一的多目标损失函数，将VFM的知识迁移到学生模型。该损失函数包括分类损失、分割损失和对比损失，旨在使学生模型模仿教师模型的预测结果，并学习到相似的特征表示。（3）学生模型精炼：通过迭代训练，减轻伪标签偏差，进一步提高学生模型的性能。

关键创新：该论文的关键创新在于提出了一个实例感知的像素级对比损失。该损失函数融合了mask和类别分数，以提取信息丰富的负样本，并强制执行清晰的实例间间隔。通过在自适应和蒸馏过程中保持这种对比信号，可以对齐教师和学生模型的嵌入，并更有效地利用未标注图像。这种对比损失可以帮助学生模型更好地理解图像中的实例关系，从而提高实例分割的性能。

关键设计：论文中使用的对比损失函数是关键设计之一。该损失函数基于InfoNCE损失，并针对实例分割任务进行了改进。具体来说，该损失函数考虑了像素级别的特征表示，并利用mask和类别分数来选择负样本。此外，论文还使用了多目标损失函数，该损失函数包括分类损失、分割损失和对比损失，并对不同的损失项进行了加权。这些设计使得学生模型可以有效地学习教师模型的知识，并提高实例分割的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Cityscapes和ADE20K数据集上取得了显著的性能提升。在Cityscapes数据集上，体积缩小约11倍的学生模型，相比于零样本VFM教师模型，AP提升了+11.9，超过了自适应后的教师模型+3.4 AP。在ADE20K数据集上，学生模型相比于零样本VFM教师模型，AP提升了+8.6，超过了自适应后的教师模型+1.5 AP。此外，该方法还优于基准测试中最新的SSKD方法，证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于需要高性能、低计算成本的视觉任务中，例如自动驾驶、机器人导航、智能监控等。通过将大型视觉基础模型压缩为轻量级专家模型，可以降低部署成本，提高推理速度，从而使这些应用在资源受限的设备上也能高效运行。此外，该方法还可以应用于其他需要大量标注数据的视觉任务，例如医学图像分析、遥感图像分析等。

📄 摘要（原文）

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our $\approx 11\times$ smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Training a Student Expert via Semi-Supervised Foundation Model Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理