Generative Distribution Distillation

作者: Jiequan Cui, Beier Zhu, Qingshan Xu, Xiaogang Xu, Pengguang Chen, Xiaojuan Qi, Bei Yu, Hanwang Zhang, Richang Hong

分类: cs.LG, cs.CV

发布日期: 2025-07-19

备注: Technique report

💡 一句话要点

提出生成式分布蒸馏框架GenDD，实现高效的知识蒸馏与图像分类。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 生成模型 图像分类 无监督学习 深度学习 模型压缩 条件生成 分布蒸馏

📋 核心要点

传统知识蒸馏方法在高维空间优化和缺乏标签语义监督方面存在挑战，限制了其性能。
GenDD框架将知识蒸馏视为条件生成问题，通过分割Token化和分布收缩策略解决高维优化和语义监督问题。
实验表明，GenDD在无监督和有监督场景下均表现出色，显著提升了ImageNet上的分类精度。

📝 摘要（中文）

本文将知识蒸馏（KD）建模为一个条件生成问题，并提出了生成式分布蒸馏（GenDD）框架。一个朴素的GenDD基线面临两个主要挑战：高维优化的难题和缺乏来自标签的语义监督。为了解决这些问题，我们引入了一种分割Token化（Split Tokenization）策略，实现了稳定有效的无监督KD。此外，我们开发了分布收缩（Distribution Contraction）技术，将标签监督整合到重建目标中。我们的理论证明表明，带有分布收缩的GenDD可以作为多任务学习的梯度级代理，从而在多步采样图像表示上实现高效的监督训练，而无需显式的分类损失。为了评估我们方法的有效性，我们对平衡、不平衡和无标签数据进行了实验。实验结果表明，GenDD在无监督设置中表现出竞争力，在ImageNet验证集上显著超过KL基线16.29%。在标签监督下，我们的ResNet-50在600个epoch的训练中达到了82.28%的top-1准确率，创造了新的state-of-the-art。

🔬 方法详解

问题定义：现有的知识蒸馏方法在高维特征空间中进行优化时，容易陷入局部最优，且在无监督或半监督场景下，缺乏有效的语义信息引导，导致蒸馏效果不佳。尤其是在图像分类任务中，如何有效地利用教师模型的知识，提升学生模型的性能是一个关键问题。

核心思路：GenDD的核心思路是将知识蒸馏问题转化为一个条件生成问题，即学生模型学习生成教师模型的特征分布。通过这种方式，学生模型不仅学习了教师模型的预测结果，还学习了其内部的特征表示。为了解决高维优化问题和缺乏语义监督的问题，论文提出了分割Token化和分布收缩两种策略。

技术框架：GenDD框架主要包含以下几个模块：1) 特征提取模块：用于提取教师模型和学生模型的特征表示。2) 分割Token化模块：将高维特征分割成多个token，降低优化难度。3) 生成模块：学生模型通过生成模块学习教师模型的token分布。4) 分布收缩模块：利用标签信息，对生成的分布进行约束，引入语义监督。整体流程是，首先通过特征提取模块获取特征，然后通过分割Token化降低维度，接着学生模型生成教师模型的token分布，最后通过分布收缩引入标签监督，优化学生模型。

关键创新：GenDD的关键创新在于：1) 将知识蒸馏问题转化为条件生成问题，提供了一种新的视角。2) 提出了分割Token化策略，有效降低了高维优化的难度。3) 提出了分布收缩技术，将标签信息融入到生成过程中，实现了更有效的语义监督。与传统的知识蒸馏方法相比，GenDD能够更好地利用教师模型的知识，提升学生模型的性能。

关键设计：分割Token化将特征图分割成多个patch（token），例如将特征图划分为16x16的token。分布收缩通过最小化学生模型生成分布与教师模型分布之间的差异，并结合标签信息进行约束。损失函数包括生成损失和分布收缩损失。生成损失可以使用KL散度或JS散度等。分布收缩损失则根据标签信息，对生成的分布进行调整，使得学生模型更关注与标签相关的特征。

🖼️ 关键图片

📊 实验亮点

GenDD在ImageNet数据集上取得了显著的性能提升。在无监督设置下，GenDD相比KL散度基线提升了16.29%。在有监督设置下，使用ResNet-50模型，经过600个epoch的训练，GenDD达到了82.28%的top-1准确率，创造了新的state-of-the-art。这些结果表明GenDD在知识蒸馏方面具有强大的竞争力。

🎯 应用场景

GenDD框架可应用于各种知识蒸馏场景，尤其是在数据标注成本高昂或难以获取的情况下，例如医学图像分析、遥感图像处理等领域。该方法能够有效提升模型在资源受限设备上的性能，实现高效的模型部署和推理。此外，GenDD的生成式学习框架也为未来研究提供了新的思路，例如结合生成对抗网络（GAN）进行知识蒸馏。

📄 摘要（原文）

In this paper, we formulate the knowledge distillation (KD) as a conditional generative problem and propose the \textit{Generative Distribution Distillation (GenDD)} framework. A naive \textit{GenDD} baseline encounters two major challenges: the curse of high-dimensional optimization and the lack of semantic supervision from labels. To address these issues, we introduce a \textit{Split Tokenization} strategy, achieving stable and effective unsupervised KD. Additionally, we develop the \textit{Distribution Contraction} technique to integrate label supervision into the reconstruction objective. Our theoretical proof demonstrates that \textit{GenDD} with \textit{Distribution Contraction} serves as a gradient-level surrogate for multi-task learning, realizing efficient supervised training without explicit classification loss on multi-step sampling image representations. To evaluate the effectiveness of our method, we conduct experiments on balanced, imbalanced, and unlabeled data. Experimental results show that \textit{GenDD} performs competitively in the unsupervised setting, significantly surpassing KL baseline by \textbf{16.29\%} on ImageNet validation set. With label supervision, our ResNet-50 achieves \textbf{82.28\%} top-1 accuracy on ImageNet in 600 epochs training, establishing a new state-of-the-art.

Generative Distribution Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理