When Data-Free Knowledge Distillation Meets Non-Transferable Teacher: Escaping Out-of-Distribution Trap is All You Need

📄 arXiv: 2507.04119v1 📥 PDF

作者: Ziming Hong, Runnan Chen, Zengmao Wang, Bo Han, Bo Du, Tongliang Liu

分类: cs.LG, cs.AI, cs.CR, cs.CV

发布日期: 2025-07-05

备注: Accepted by ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出ATEsc方法,解决数据自由知识蒸馏中非迁移教师的OOD陷阱问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据自由知识蒸馏 非迁移学习 对抗鲁棒性 异分布检测 知识迁移

📋 核心要点

  1. 现有数据自由知识蒸馏方法忽略了教师模型可能存在的非迁移性,导致学生模型学习到错误的异分布知识。
  2. ATEsc方法的核心思想是利用非迁移教师在异分布数据上更强的对抗鲁棒性,区分并过滤掉合成数据中的异分布样本。
  3. 实验结果表明,ATEsc方法能够有效提高数据自由知识蒸馏在非迁移教师下的性能,避免学生模型陷入异分布陷阱。

📝 摘要(中文)

数据自由知识蒸馏(DFKD)在没有真实同分布(ID)数据的情况下,将知识从教师模型迁移到学生模型。常见的解决方案是使用生成器合成假数据,并将其作为真实ID数据的替代品。然而,现有工作通常假设教师模型是可信的,而对来自不可信教师的DFKD的鲁棒性和安全性研究不足。本文首次研究了使用DFKD蒸馏非迁移学习(NTL)教师模型的问题,其中从ID域到异分布(OOD)域的迁移性受到限制。我们发现NTL教师通过将生成器的注意力从有用的ID知识转移到误导性的OOD知识来欺骗DFKD,阻碍ID知识的迁移,但优先考虑OOD知识的迁移。为了缓解这个问题,我们提出了对抗陷阱逃逸(ATEsc)方法,通过识别和过滤掉类似OOD的合成样本来改善DFKD。具体来说,受到NTL教师在OOD样本上比ID样本表现出更强的对抗鲁棒性的启发,我们将合成样本根据其鲁棒性分为两组。脆弱组被视为类似ID的数据,用于正常的知识蒸馏,而鲁棒组被视为类似OOD的数据,用于遗忘OOD知识。大量实验证明了ATEsc在提高DFKD对抗NTL教师方面的有效性。

🔬 方法详解

问题定义:论文旨在解决数据自由知识蒸馏(DFKD)中,当教师模型具有非迁移性(NTL)时,学生模型容易学习到异分布(OOD)知识的问题。现有的DFKD方法通常假设教师模型是可信的,忽略了教师模型可能存在的恶意或缺陷,导致学生模型性能下降。

核心思路:论文的核心思路是利用NTL教师模型在OOD数据上表现出更强的对抗鲁棒性这一特性,来区分合成数据中的ID和OOD样本。通过对抗攻击评估合成样本的鲁棒性,将鲁棒性较强的样本视为OOD数据,并采取措施减少其对学生模型的影响。

技术框架:ATEsc方法主要包含以下几个阶段:1) 使用生成器合成数据;2) 对合成数据进行对抗攻击,评估其鲁棒性;3) 根据鲁棒性将合成数据分为脆弱组(ID-like)和鲁棒组(OOD-like);4) 对脆弱组进行正常的知识蒸馏;5) 对鲁棒组进行OOD知识遗忘,例如通过对抗训练或负样本学习。

关键创新:论文的关键创新在于发现了NTL教师模型在OOD数据上的对抗鲁棒性差异,并将其用于指导DFKD过程。与现有方法不同,ATEsc方法不再盲目信任教师模型,而是通过分析合成数据的特性来识别和过滤掉有害的OOD知识。

关键设计:ATEsc的关键设计包括:1) 使用对抗攻击(如PGD)来评估合成样本的鲁棒性;2) 设置鲁棒性阈值,将合成样本分为脆弱组和鲁棒组;3) 使用不同的损失函数来处理脆弱组和鲁棒组,例如对脆弱组使用标准的知识蒸馏损失,对鲁棒组使用对抗损失或负样本损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多个数据集和模型架构上,ATEsc方法能够显著提高DFKD在NTL教师下的性能。例如,在CIFAR-10数据集上,使用ResNet-18作为学生模型,ATEsc方法相比于基线方法,Top-1准确率提升了5%以上。此外,实验还验证了ATEsc方法在不同类型的NTL攻击下的有效性。

🎯 应用场景

该研究成果可应用于对安全性要求较高的知识蒸馏场景,例如在医疗、金融等领域,防止学生模型学习到来自恶意或不可靠教师模型的有害知识。此外,该方法也可以推广到其他类型的知识迁移任务中,提高模型在面对不可信数据源时的鲁棒性。

📄 摘要(原文)

Data-free knowledge distillation (DFKD) transfers knowledge from a teacher to a student without access the real in-distribution (ID) data. Its common solution is to use a generator to synthesize fake data and use them as a substitute for real ID data. However, existing works typically assume teachers are trustworthy, leaving the robustness and security of DFKD from untrusted teachers largely unexplored. In this work, we conduct the first investigation into distilling non-transferable learning (NTL) teachers using DFKD, where the transferability from an ID domain to an out-of-distribution (OOD) domain is prohibited. We find that NTL teachers fool DFKD through divert the generator's attention from the useful ID knowledge to the misleading OOD knowledge. This hinders ID knowledge transfer but prioritizes OOD knowledge transfer. To mitigate this issue, we propose Adversarial Trap Escaping (ATEsc) to benefit DFKD by identifying and filtering out OOD-like synthetic samples. Specifically, inspired by the evidence that NTL teachers show stronger adversarial robustness on OOD samples than ID samples, we split synthetic samples into two groups according to their robustness. The fragile group is treated as ID-like data and used for normal knowledge distillation, while the robust group is seen as OOD-like data and utilized for forgetting OOD knowledge. Extensive experiments demonstrate the effectiveness of ATEsc for improving DFKD against NTL teachers. Code is released at https://github.com/tmllab/2025_ICML_ATEsc.