Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack

📄 arXiv: 2509.23871v1 📥 PDF

作者: Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren

分类: cs.CR, cs.AI, cs.CV, cs.LG

发布日期: 2025-09-28

备注: The first three authors contributed equally to this work. To appear in NeurIPS 2025. 35 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出SCAR:一种蒸馏条件后门攻击方法,可注入隐蔽后门至教师模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 后门攻击 深度学习安全 双层优化 隐式微分

📋 核心要点

  1. 现有后门攻击方法难以在知识蒸馏场景下,将隐蔽后门注入教师模型并在学生模型中激活。
  2. 提出SCAR方法,通过双层优化模拟知识蒸馏过程,在教师模型中植入蒸馏条件后门。
  3. 实验证明SCAR方法能有效注入后门,且具有较强的抗后门检测能力,揭示了知识蒸馏的安全风险。

📝 摘要(中文)

知识蒸馏(KD)是一种重要的技术,通过将知识从大型教师模型迁移到轻量级学生模型,从而在资源受限的设备上部署深度神经网络(DNN)。尽管来自第三方平台的教师模型可能经过安全验证(例如,后门检测),但我们发现了一种新颖且关键的威胁:蒸馏条件后门攻击(DCBA)。DCBA将休眠且无法检测的后门注入到教师模型中,这些后门通过KD过程在学生模型中激活,即使使用干净的蒸馏数据集也是如此。由于现有方法的直接扩展对DCBA无效,我们通过将其公式化为双层优化问题并提出一种简单而有效的方法(即SCAR)来实现此攻击。具体来说,内部优化通过优化代理学生模型来模拟KD过程,而外部优化利用来自该代理的输出优化教师模型,以植入条件后门。我们的SCAR利用具有预优化触发器注入函数的隐式微分算法来解决这种复杂的优化问题。跨各种数据集、模型架构和KD技术的大量实验验证了我们的SCAR的有效性及其对现有后门检测的抵抗力,突出了KD过程中一个重要但以前被忽视的漏洞。我们的代码可在https://github.com/WhitolfChen/SCAR获得。

🔬 方法详解

问题定义:论文旨在解决知识蒸馏场景下的后门攻击问题。现有方法难以在教师模型中植入隐蔽的、仅在蒸馏到学生模型时才激活的后门。现有的后门防御机制通常针对教师模型进行检测,无法有效防御这种蒸馏条件后门攻击。

核心思路:论文的核心思路是将蒸馏条件后门攻击建模为一个双层优化问题。外层优化旨在优化教师模型,使其包含后门;内层优化模拟知识蒸馏过程,优化一个代理学生模型。通过内外层优化交替进行,使得后门在教师模型中保持隐蔽,但在蒸馏到学生模型时被激活。

技术框架:SCAR方法的整体框架包含以下几个主要步骤: 1. 预优化触发器注入函数:预先定义并优化一个触发器注入函数,用于在教师模型的特定层注入触发器。 2. 内层优化(代理学生模型训练):使用干净的数据集和知识蒸馏技术,训练一个代理学生模型,模拟真实的蒸馏过程。 3. 外层优化(教师模型后门注入):利用代理学生模型的输出,优化教师模型,使得后门在学生模型中激活。这一步使用隐式微分算法,避免了直接计算学生模型梯度的复杂性。 4. 迭代优化:交替进行内层和外层优化,直到教师模型成功植入后门。

关键创新:论文的关键创新在于提出了蒸馏条件后门攻击的概念,并设计了SCAR方法来实现这种攻击。与传统的后门攻击不同,SCAR攻击的目标是使后门在教师模型中保持隐蔽,仅在蒸馏到学生模型时才被激活。此外,SCAR方法利用双层优化和隐式微分算法,有效地解决了复杂的优化问题。

关键设计:SCAR方法的关键设计包括: 1. 双层优化框架:通过内外层优化,分别优化教师模型和代理学生模型,实现蒸馏条件后门攻击。 2. 隐式微分算法:利用隐式微分算法,避免了直接计算学生模型梯度的复杂性,提高了优化效率。 3. 预优化触发器注入函数:预先定义并优化触发器注入函数,使得后门注入过程更加高效和可控。 4. 损失函数设计:设计了合适的损失函数,用于指导教师模型和学生模型的优化,使得后门在学生模型中激活,同时保持教师模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCAR方法能够成功地将后门注入到教师模型中,并在学生模型中激活,即使使用干净的蒸馏数据集也是如此。此外,SCAR方法具有较强的抗后门检测能力,能够绕过现有的后门检测方法。实验结果验证了SCAR方法的有效性和实用性。

🎯 应用场景

该研究揭示了知识蒸馏过程中的安全风险,可应用于评估和改进知识蒸馏系统的安全性。研究结果有助于开发更安全的知识蒸馏算法和防御机制,保护深度学习模型免受恶意攻击,尤其是在模型部署到资源受限设备时。

📄 摘要(原文)

Knowledge distillation (KD) is a vital technique for deploying deep neural networks (DNNs) on resource-constrained devices by transferring knowledge from large teacher models to lightweight student models. While teacher models from third-party platforms may undergo security verification (\eg, backdoor detection), we uncover a novel and critical threat: distillation-conditional backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into teacher models, which become activated in student models via the KD process, even with clean distillation datasets. While the direct extension of existing methods is ineffective for DCBA, we implement this attack by formulating it as a bilevel optimization problem and proposing a simple yet effective method (\ie, SCAR). Specifically, the inner optimization simulates the KD process by optimizing a surrogate student model, while the outer optimization leverages outputs from this surrogate to optimize the teacher model for implanting the conditional backdoor. Our SCAR addresses this complex optimization utilizing an implicit differentiation algorithm with a pre-optimized trigger injection function. Extensive experiments across diverse datasets, model architectures, and KD techniques validate the effectiveness of our SCAR and its resistance against existing backdoor detection, highlighting a significant yet previously overlooked vulnerability in the KD process. Our code is available at https://github.com/WhitolfChen/SCAR.