Self-Distillation of Hidden Layers for Self-Supervised Representation Learning

📄 arXiv: 2603.15553v1 📥 PDF

作者: Scott C. Lowe, Anthony Fuller, Sageev Oore, Evan Shelhamer, Graham W. Taylor

分类: cs.CV, cs.LG

发布日期: 2026-03-16


💡 一句话要点

提出Bootleg,通过多层隐层自蒸馏提升自监督表征学习性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 表征学习 自蒸馏 知识蒸馏 分层学习

📋 核心要点

  1. 现有自监督学习方法,如生成式和预测式方法,分别存在计算效率低和训练不稳定的问题。
  2. Bootleg通过预测教师网络多个隐藏层的潜在表示,迫使模型学习不同抽象层次的特征。
  3. 实验表明,Bootleg在图像分类和语义分割任务上显著优于现有方法,性能提升明显。

📝 摘要(中文)

目前自监督学习(SSL)领域主要由生成式方法(如MAE)和预测式方法(如I-JEPA)主导。生成式方法虽然提供了强大的基础,但对于图像等高冗余模态计算效率低下,且其训练目标并未优先考虑学习高层次的概念特征。相反,预测式方法常因依赖于最终层自蒸馏的非平稳目标而导致训练不稳定。我们提出了一种名为Bootleg的方法,通过让模型预测教师网络多个隐藏层的潜在表示来弥合这一差距。这种分层目标迫使模型同时捕获不同抽象层次的特征。在ImageNet-1K和iNaturalist-21的分类以及ADE20K和Cityscapes的语义分割任务上,Bootleg显著优于同类基线(比I-JEPA高出+10%)。

🔬 方法详解

问题定义:现有自监督学习方法,如MAE等生成式模型,在处理高冗余数据(如图像)时计算成本过高,且优化目标偏向于低级像素重建,忽略了高层语义特征的学习。而I-JEPA等预测式模型,依赖于最后一层的自蒸馏,目标不稳定,导致训练困难。因此,如何高效且稳定地学习到高质量的图像表征是一个关键问题。

核心思路:Bootleg的核心思想是利用教师网络多个隐藏层的特征作为学习目标,进行自蒸馏。通过预测不同抽象层次的特征,模型能够同时学习到低级细节和高级语义信息,从而获得更全面的表征。这种分层自蒸馏的方式,避免了仅依赖最后一层特征带来的不稳定性。

技术框架:Bootleg包含一个学生网络和一个教师网络。教师网络预先训练好或使用预训练模型。学生网络的目标是预测教师网络多个隐藏层的输出。具体流程如下:1) 输入图像经过学生网络和教师网络;2) 从教师网络中选择多个隐藏层,提取其输出特征;3) 学生网络也对应提取相同位置的隐藏层特征;4) 使用损失函数,例如均方误差,衡量学生网络预测的特征与教师网络特征之间的差异;5) 通过最小化损失函数,训练学生网络。

关键创新:Bootleg的关键创新在于引入了多层隐层自蒸馏的概念。与传统的自蒸馏方法只关注最后一层特征不同,Bootleg同时利用多个隐藏层的特征,从而迫使模型学习不同抽象层次的信息。这种分层学习的方式,能够更好地捕捉图像的内在结构和语义信息,提升表征的质量。

关键设计:Bootleg的关键设计包括:1) 教师网络的选择:可以使用预训练模型或独立训练的教师网络;2) 隐藏层的选择:需要选择具有代表性的隐藏层,覆盖不同抽象层次的特征;3) 损失函数的设计:可以使用均方误差、余弦相似度等损失函数,衡量学生网络预测的特征与教师网络特征之间的差异;4) 学生网络的结构:学生网络可以使用与教师网络相同的结构,也可以使用更小的结构,以实现知识的压缩。

📊 实验亮点

实验结果表明,Bootleg在ImageNet-1K和iNaturalist-21图像分类任务上,相比于I-JEPA等基线方法,性能提升了10%。在ADE20K和Cityscapes语义分割任务上,Bootleg也取得了显著的性能提升。这些结果证明了Bootleg方法在自监督表征学习方面的有效性,能够学习到高质量的图像表征。

🎯 应用场景

Bootleg方法可以广泛应用于计算机视觉领域,例如图像分类、目标检测、语义分割等任务。其学习到的高质量图像表征可以作为下游任务的输入,提升模型的性能。此外,Bootleg还可以应用于其他模态的数据,例如文本、语音等,实现跨模态的自监督学习。该方法具有很高的实际应用价值,有望推动自监督学习技术的发展。

📄 摘要(原文)

The landscape of self-supervised learning (SSL) is currently dominated by generative approaches (e.g., MAE) that reconstruct raw low-level data, and predictive approaches (e.g., I-JEPA) that predict high-level abstract embeddings. While generative methods provide strong grounding, they are computationally inefficient for high-redundancy modalities like imagery, and their training objective does not prioritize learning high-level, conceptual features. Conversely, predictive methods often suffer from training instability due to their reliance on the non-stationary targets of final-layer self-distillation. We introduce Bootleg, a method that bridges this divide by tasking the model with predicting latent representations from multiple hidden layers of a teacher network. This hierarchical objective forces the model to capture features at varying levels of abstraction simultaneously. We demonstrate that Bootleg significantly outperforms comparable baselines (+10% over I-JEPA) on classification of ImageNet-1K and iNaturalist-21, and semantic segmentation of ADE20K and Cityscapes.