Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion Augmentation

📄 arXiv: 2410.17606v1 📥 PDF

作者: Muquan Li, Dongyang Zhang, Tao He, Xiurui Xie, Yuan-Fang Li, Ke Qin

分类: cs.CV, cs.AI

发布日期: 2024-10-23

DOI: 10.1145/3664647.3680711

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于扩散增强的数据自由知识蒸馏方法,提升合成数据多样性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据自由知识蒸馏 知识蒸馏 扩散模型 数据增强 模型压缩

📋 核心要点

  1. 传统数据自由知识蒸馏方法依赖合成数据,但合成数据多样性不足,与真实数据分布存在差异。
  2. 论文核心在于利用扩散模型对合成数据进行增强,生成更多样且分布更接近原始数据的数据样本。
  3. 实验结果表明,该方法在多个数据集和网络结构上均优于现有数据自由知识蒸馏方法。

📝 摘要(中文)

本文提出了一种通过多样性扩散增强(DDA)实现数据自由知识蒸馏(DFKD)的创新方法。传统DFKD方法依赖于合成训练数据,但存在多样性不足以及合成数据与原始数据分布差异的问题。为了解决这些挑战,本文利用扩散模型在数据合成后进行自监督增强,生成具有相似分布和可控变化的数据样本。此外,为了减轻嵌入空间中的过度偏差,引入了一种基于余弦相似度的图像过滤技术,以保持知识蒸馏过程中的保真度。在CIFAR-10、CIFAR-100和Tiny-ImageNet数据集上的实验表明,该方法在各种教师-学生网络配置下均优于当前最先进的DFKD方法。

🔬 方法详解

问题定义:数据自由知识蒸馏(DFKD)旨在不依赖原始训练数据的情况下,将知识从大型教师模型迁移到小型学生模型。现有DFKD方法通常通过生成合成数据进行训练,但合成数据往往缺乏多样性,并且与真实数据存在分布差异,导致蒸馏效果不佳。

核心思路:本文的核心思路是利用扩散模型对合成数据进行增强,从而提高合成数据的多样性,并使其分布更接近原始数据。通过扩散模型生成与原始数据具有相似分布但又略有不同的新样本,从而弥补合成数据多样性不足的缺陷。

技术框架:该方法主要包含以下几个阶段:1) 使用现有方法生成初始合成数据;2) 利用扩散模型对合成数据进行自监督增强,生成一系列具有相似分布但又略有不同的新样本;3) 使用余弦相似度进行图像过滤,筛选出与原始数据更相似的样本,避免嵌入空间出现过度偏差;4) 使用筛选后的数据进行知识蒸馏,训练学生模型。

关键创新:该方法最重要的创新点在于将扩散模型引入到数据自由知识蒸馏中,用于增强合成数据的多样性。与传统的生成对抗网络(GAN)等方法相比,扩散模型能够生成更高质量、更多样化的样本,并且训练过程更加稳定。

关键设计:在扩散模型的使用上,采用了自监督的方式进行训练,避免了对标签的依赖。同时,为了控制生成样本的偏差,引入了基于余弦相似度的图像过滤技术,筛选出与原始数据更相似的样本。具体的损失函数包括知识蒸馏损失和图像过滤损失,用于指导学生模型的训练和样本的筛选。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在CIFAR-10、CIFAR-100和Tiny-ImageNet数据集上的实验结果表明,该方法在各种教师-学生网络配置下均优于当前最先进的DFKD方法。例如,在CIFAR-10数据集上,使用ResNet32作为教师模型,ResNet8作为学生模型时,该方法相比于现有最佳方法提升了超过2%的准确率。

🎯 应用场景

该研究成果可应用于模型压缩、边缘计算、移动设备等场景,在这些场景下,原始数据可能无法获取或存储,但需要部署轻量级的模型。通过数据自由知识蒸馏,可以在不依赖原始数据的情况下,将大型模型的知识迁移到小型模型,从而实现模型的轻量化部署,并提升模型的性能。

📄 摘要(原文)

Data-free knowledge distillation (DFKD) has emerged as a pivotal technique in the domain of model compression, substantially reducing the dependency on the original training data. Nonetheless, conventional DFKD methods that employ synthesized training data are prone to the limitations of inadequate diversity and discrepancies in distribution between the synthesized and original datasets. To address these challenges, this paper introduces an innovative approach to DFKD through diverse diffusion augmentation (DDA). Specifically, we revise the paradigm of common data synthesis in DFKD to a composite process through leveraging diffusion models subsequent to data synthesis for self-supervised augmentation, which generates a spectrum of data samples with similar distributions while retaining controlled variations. Furthermore, to mitigate excessive deviation in the embedding space, we introduce an image filtering technique grounded in cosine similarity to maintain fidelity during the knowledge distillation process. Comprehensive experiments conducted on CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets showcase the superior performance of our method across various teacher-student network configurations, outperforming the contemporary state-of-the-art DFKD methods. Code will be available at:https://github.com/SLGSP/DDA.