CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation

📄 arXiv: 2504.21478v1 📥 PDF

作者: Zherui Zhang, Changwei Wang, Rongtao Xu, Wenhao Xu, Shibiao Xu, Yu Zhang, Li Guo

分类: cs.CV, cs.NE

发布日期: 2025-04-30


💡 一句话要点

提出CAE-DFKD,提升数据自由知识蒸馏中表征的可迁移性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据自由知识蒸馏 知识迁移 表征学习 类别感知 嵌入对齐

📋 核心要点

  1. 现有DFKD方法侧重图像识别精度,忽略了表征可迁移性,限制了模型在下游任务中的应用。
  2. CAE-DFKD在嵌入层面上进行知识迁移,提升模型泛化能力和表征的可迁移性。
  3. 实验表明,CAE-DFKD在图像识别任务上表现出色,并在下游任务中展现了卓越的可迁移性。

📝 摘要(中文)

数据自由知识蒸馏(DFKD)能够在无需访问真实训练数据的情况下,将知识从预训练的教师网络迁移到目标学生模型。现有的DFKD方法主要关注提高图像识别性能,往往忽略了学习到的表征的可迁移性这一关键方面。本文提出了类别感知嵌入数据自由知识蒸馏(CAE-DFKD),它在嵌入层面上解决了先前依赖图像级别方法来提高模型泛化能力,但直接应用于DFKD时效果不佳的局限性。通过广泛的评估,证明了CAE-DFKD的优越性和灵活性,包括: extbf{i.)} 通过改变生成器训练范式带来的显著效率优势; extbf{ii.)} 在图像识别任务上与现有DFKD最先进方法相比具有竞争力的性能; extbf{iii.)} 在下游任务中展示了数据自由学习表征的卓越可迁移性。

🔬 方法详解

问题定义:现有的数据自由知识蒸馏(DFKD)方法主要关注在特定数据集上的图像识别性能提升,而忽略了学习到的表征在不同任务和数据集上的可迁移性。这意味着模型可能在训练数据集上表现良好,但在新的、未见过的数据集或任务上表现不佳。现有方法主要依赖图像级别的特征对齐,缺乏对类别信息的有效利用,导致生成的数据质量不高,限制了知识迁移的效果。

核心思路:CAE-DFKD的核心思路是在嵌入层面上进行知识蒸馏,通过类别感知的嵌入对齐,提高生成数据的质量和多样性,从而提升学生模型学习到的表征的可迁移性。该方法不再仅仅关注图像级别的像素对齐,而是深入到特征空间,学习更具判别性和泛化能力的表征。

技术框架:CAE-DFKD主要包含两个阶段:生成器训练阶段和学生模型训练阶段。在生成器训练阶段,利用教师模型的知识,生成具有类别信息的合成数据。在学生模型训练阶段,利用生成的合成数据和教师模型的知识,训练学生模型。整体框架包括:1)类别感知的嵌入生成器,用于生成高质量的合成数据;2)知识蒸馏模块,用于将教师模型的知识迁移到学生模型;3)损失函数,用于优化生成器和学生模型。

关键创新:CAE-DFKD的关键创新在于提出了类别感知的嵌入生成器,该生成器能够生成具有类别信息的、高质量的合成数据。与现有方法相比,CAE-DFKD不再仅仅依赖图像级别的像素对齐,而是深入到特征空间,学习更具判别性和泛化能力的表征。此外,CAE-DFKD改变了生成器的训练范式,提高了训练效率。

关键设计:CAE-DFKD的关键设计包括:1)类别感知的嵌入生成器,利用教师模型的嵌入信息,生成具有类别信息的合成数据;2)对抗损失,用于提高生成数据的真实性和多样性;3)知识蒸馏损失,用于将教师模型的知识迁移到学生模型。具体的损失函数包括:生成器对抗损失、类别分类损失、教师-学生嵌入对齐损失等。网络结构方面,生成器通常采用GAN的结构,学生模型可以根据具体任务选择不同的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAE-DFKD在图像识别任务上取得了与现有最先进DFKD方法相当的性能。更重要的是,在下游任务中,CAE-DFKD展现了卓越的可迁移性,显著优于其他DFKD方法。实验结果表明,CAE-DFKD能够学习到更具泛化能力的表征,从而在新的任务和数据集上表现更好。

🎯 应用场景

CAE-DFKD具有广泛的应用前景,例如在数据隐私保护要求严格的场景下,可以使用该方法进行模型迁移和部署。此外,该方法还可以应用于跨领域学习、模型压缩等领域,提高模型的泛化能力和效率。未来,该方法可以进一步扩展到其他模态的数据,例如文本、语音等,实现跨模态的知识迁移。

📄 摘要(原文)

Data-Free Knowledge Distillation (DFKD) enables the knowledge transfer from the given pre-trained teacher network to the target student model without access to the real training data. Existing DFKD methods focus primarily on improving image recognition performance on associated datasets, often neglecting the crucial aspect of the transferability of learned representations. In this paper, we propose Category-Aware Embedding Data-Free Knowledge Distillation (CAE-DFKD), which addresses at the embedding level the limitations of previous rely on image-level methods to improve model generalization but fail when directly applied to DFKD. The superiority and flexibility of CAE-DFKD are extensively evaluated, including: \textit{\textbf{i.)}} Significant efficiency advantages resulting from altering the generator training paradigm; \textit{\textbf{ii.)}} Competitive performance with existing DFKD state-of-the-art methods on image recognition tasks; \textit{\textbf{iii.)}} Remarkable transferability of data-free learned representations demonstrated in downstream tasks.