How to Backdoor the Knowledge Distillation

📄 arXiv: 2504.21323v2 📥 PDF

作者: Chen Wu, Qian Ma, Prasenjit Mitra, Sencun Zhu

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-04-30 (更新: 2026-01-12)


💡 一句话要点

提出一种针对知识蒸馏的后门攻击方法,利用对抗样本毒化蒸馏数据集。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 后门攻击 对抗样本 模型安全 机器学习安全

📋 核心要点

  1. 现有后门攻击依赖于恶意训练数据,与知识蒸馏过程不兼容,因此传统上认为知识蒸馏是安全的。
  2. 该论文提出一种新的攻击方法,通过在蒸馏数据集中嵌入带有后门触发器的对抗样本来毒化学生模型。
  3. 实验证明,该方法能够有效地在学生模型中植入后门,同时保持教师模型的完整性,揭示了知识蒸馏的潜在漏洞。

📝 摘要(中文)

知识蒸馏是现代机器学习系统中的基石,它能够将知识从大型、复杂的教师模型迁移到更高效的学生模型。传统上,人们认为只要教师模型是干净的,这个过程就是安全的。这种观点源于传统的后门攻击依赖于带有后门触发器和攻击者选择标签的恶意训练数据,而这些数据不参与蒸馏过程。相反,知识蒸馏使用干净教师模型的输出来指导学生模型,从而固有地防止了对后门触发器的识别或响应。本文挑战了这一假设,提出了一种新的攻击方法,该方法通过嵌入后门触发器的对抗样本来策略性地毒化蒸馏数据集。这种技术可以在保持教师模型完整性的同时,隐蔽地破坏学生模型。我们的创新方法代表了首次成功利用使用干净教师模型的知识蒸馏过程中的漏洞。通过在各种数据集和攻击设置下进行的大量实验,我们证明了该方法的鲁棒性、隐蔽性和有效性。我们的发现揭示了以前未被认识到的漏洞,并为未来旨在保护知识蒸馏过程免受后门攻击的研究铺平了道路。

🔬 方法详解

问题定义:知识蒸馏通常被认为是安全的,因为它使用干净的教师模型来指导学生模型的训练,避免了传统后门攻击中使用的恶意训练数据。然而,这种安全性假设忽略了蒸馏数据集本身可能被攻击者操纵的风险。论文旨在解决的问题是:即使教师模型是干净的,知识蒸馏过程是否仍然容易受到后门攻击?现有方法的痛点在于,它们没有考虑到蒸馏数据集可能被注入对抗样本,从而导致学生模型被隐蔽地破坏。

核心思路:论文的核心思路是通过在蒸馏数据集中注入带有后门触发器的对抗样本来毒化学生模型。具体来说,攻击者不是直接修改教师模型或训练数据,而是精心构造对抗样本,这些样本在正常输入的基础上添加了难以察觉的扰动,并嵌入了后门触发器。当学生模型在这些被毒化的蒸馏数据上进行训练时,它会学习到将后门触发器与攻击者期望的错误标签关联起来,从而实现后门攻击。这种设计的关键在于利用对抗样本的隐蔽性,使得攻击难以被检测。

技术框架:该攻击方法主要包含以下几个阶段:1) 对抗样本生成:使用对抗攻击算法(如FGSM、PGD等)生成带有后门触发器的对抗样本。这些样本在视觉上与原始样本相似,但会导致教师模型产生错误的预测。2) 蒸馏数据集构建:将生成的对抗样本与原始样本混合,构建被毒化的蒸馏数据集。3) 学生模型训练:使用被毒化的蒸馏数据集训练学生模型。学生模型在学习教师模型知识的同时,也会学习到后门触发器与错误标签之间的关联。4) 后门触发:在测试阶段,当输入样本包含后门触发器时,学生模型会错误地将其分类为攻击者期望的标签。

关键创新:该论文最重要的技术创新点在于,它首次证明了即使在教师模型是干净的情况下,知识蒸馏过程仍然容易受到后门攻击。与传统的后门攻击不同,该方法不需要修改教师模型或训练数据,而是通过操纵蒸馏数据集来实现攻击。这种攻击方式更加隐蔽,也更难被检测。

关键设计:在对抗样本生成阶段,需要仔细选择对抗攻击算法和后门触发器的类型。例如,可以使用FGSM算法生成快速对抗样本,或者使用PGD算法生成更强的对抗样本。后门触发器可以是图像中的一个小的图案,也可以是输入样本中的某些特定像素值。在蒸馏数据集构建阶段,需要控制对抗样本的比例,以平衡攻击效果和模型性能。此外,还可以使用一些防御技术来提高攻击的鲁棒性,例如对抗训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过大量实验验证了所提出攻击方法的有效性。实验结果表明,即使在教师模型是干净的情况下,攻击者仍然可以通过毒化蒸馏数据集,成功地在学生模型中植入后门。在不同的数据集和攻击设置下,该方法都表现出良好的鲁棒性和隐蔽性。例如,在CIFAR-10数据集上,攻击者可以在保持学生模型正常分类准确率的同时,使其在后门触发器出现时,以超过90%的概率错误地分类。

🎯 应用场景

该研究揭示了知识蒸馏在安全方面的潜在风险,对于开发更安全的机器学习系统具有重要意义。其应用场景包括:安全关键型应用(如自动驾驶、医疗诊断),需要防止模型被恶意攻击者利用;以及需要保护知识产权的应用,防止攻击者通过后门攻击窃取模型知识。未来的研究可以集中在开发更有效的防御机制,以抵御针对知识蒸馏的后门攻击。

📄 摘要(原文)

Knowledge distillation has become a cornerstone in modern machine learning systems, celebrated for its ability to transfer knowledge from a large, complex teacher model to a more efficient student model. Traditionally, this process is regarded as secure, assuming the teacher model is clean. This belief stems from conventional backdoor attacks relying on poisoned training data with backdoor triggers and attacker-chosen labels, which are not involved in the distillation process. Instead, knowledge distillation uses the outputs of a clean teacher model to guide the student model, inherently preventing recognition or response to backdoor triggers as intended by an attacker. In this paper, we challenge this assumption by introducing a novel attack methodology that strategically poisons the distillation dataset with adversarial examples embedded with backdoor triggers. This technique allows for the stealthy compromise of the student model while maintaining the integrity of the teacher model. Our innovative approach represents the first successful exploitation of vulnerabilities within the knowledge distillation process using clean teacher models. Through extensive experiments conducted across various datasets and attack settings, we demonstrate the robustness, stealthiness, and effectiveness of our method. Our findings reveal previously unrecognized vulnerabilities and pave the way for future research aimed at securing knowledge distillation processes against backdoor attacks.