Toward Understanding Adversarial Distillation: Why Robust Teachers Fail
作者: Hongsin Lee, Hye Won Chung
分类: cs.LG
发布日期: 2026-05-21
备注: Accepted to ICML 2026. Code is available at https://github.com/HongsinLee/why-robust-teachers-fail
💡 一句话要点
揭示对抗蒸馏中鲁棒教师失效的原因:鲁棒不可学习集上的不一致性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对抗蒸馏 鲁棒性 对抗攻击 知识蒸馏 鲁棒不可学习集
📋 核心要点
- 对抗蒸馏提升学生鲁棒性效果不稳定,鲁棒教师反而可能损害学生性能,核心问题在于缺乏对这种现象的理解。
- 论文核心思想是教师的监督置信度与学生在鲁棒不可学习集上的表征能力不匹配,导致鲁棒过拟合。
- 通过理论分析和实验验证,论文揭示了教师在不可学习样本上的预测熵与学生鲁棒性的关系,并为鲁棒教师选择提供指导。
📝 摘要(中文)
对抗蒸馏旨在通过在min-max对抗训练框架内,利用鲁棒教师的软标签来指导学生,从而提高学生的鲁棒性。然而,其成功率非常不稳定:更鲁棒的教师常常无法提高学生的鲁棒泛化能力,甚至会损害它。本文确定了这种教师依赖性的一个关键机制:教师的监督置信度与学生在一致的训练数据子集(即鲁棒不可学习集)上的表征能力之间的不匹配。我们提出了一个理论框架,分析了两层神经网络的特征学习动态,证明了这种不匹配会在蒸馏结果中产生二分性。我们证明,当教师对不可学习的样本提供自信的监督时,它会迫使学生记忆虚假的噪声模式,最终压倒学习到的鲁棒信号,从而导致鲁棒过拟合。相反,教师在这些样本上表现出高度不确定性时,可以有效地抑制噪声记忆,使学生能够仅依赖可学习的信号进行鲁棒泛化。我们在合成模拟和真实图像分类数据集上验证了我们的理论,证实了鲁棒过拟合是由教师与不可学习样本的交互驱动的。最后,我们证明了教师在不可学习样本上的预测熵可以作为学生鲁棒性的一个强指标,验证了我们的理论框架,并为鲁棒教师的选择提供了原则性指导。
🔬 方法详解
问题定义:对抗蒸馏旨在提升模型的鲁棒性,但现有方法中,更鲁棒的教师模型反而可能导致学生模型的鲁棒性下降,即鲁棒教师失效问题。现有方法缺乏对这种现象的深入理解,无法有效指导对抗蒸馏的实践。
核心思路:论文的核心思路是识别并分析“鲁棒不可学习集”(Robustly Unlearnable Set)对对抗蒸馏的影响。作者认为,当教师模型对这些不可学习的样本提供过于自信的监督时,会迫使学生模型记忆噪声,从而导致鲁棒过拟合。相反,如果教师模型在这些样本上表现出不确定性,则可以抑制噪声记忆,提升学生模型的鲁棒泛化能力。
技术框架:论文构建了一个理论框架,用于分析两层神经网络在对抗蒸馏过程中的特征学习动态。该框架主要包含以下几个阶段:1) 定义鲁棒不可学习集;2) 分析教师模型在这些样本上的行为(置信度);3) 研究教师行为如何影响学生模型的学习过程;4) 建立教师预测熵与学生鲁棒性之间的关系。
关键创新:论文最重要的技术创新在于识别了“鲁棒不可学习集”在对抗蒸馏中的关键作用,并提出了一个理论框架来解释教师模型行为如何影响学生模型的鲁棒性。与现有方法不同,该论文关注的是教师模型与不可学习样本之间的交互,而不是简单地提高教师模型的鲁棒性。
关键设计:论文的关键设计包括:1) 使用两层神经网络进行理论分析,简化了模型复杂度,便于推导和理解;2) 定义了鲁棒不可学习集,并分析了教师模型在这些样本上的预测熵;3) 通过合成数据和真实图像数据集上的实验验证了理论框架的有效性。损失函数和网络结构使用了标准的对抗训练方法,重点在于分析教师模型的行为对学生模型的影响。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了理论框架的有效性。在合成数据集上,验证了教师模型在鲁棒不可学习集上的高置信度会导致学生模型鲁棒过拟合。在真实图像数据集(如CIFAR-10)上,实验结果表明,教师模型在不可学习样本上的预测熵与学生模型的鲁棒性呈正相关,即熵越高,学生模型鲁棒性越好。
🎯 应用场景
该研究成果可应用于提升深度学习模型的鲁棒性,尤其是在安全攸关的应用领域,如自动驾驶、医疗诊断等。通过选择合适的教师模型,可以提高对抗蒸馏的效率,降低模型被攻击的风险。此外,该研究也为理解和改进其他知识蒸馏方法提供了新的视角。
📄 摘要(原文)
Adversarial Distillation aims to enhance student robustness by guiding the student with a robust teacher's soft labels within the min-max adversarial training framework, yet its success is notoriously inconsistent: a more robust teacher often fails to improve, or even harms, the student's robust generalization. In this paper, we identify a key mechanism of this teacher dependency: the misalignment between the teacher's supervisory confidence and the student's representational limitations on a consistent subset of training data -- the Robustly Unlearnable Set. We present a theoretical framework analyzing the feature learning dynamics of a two-layer neural network, demonstrating that this mismatch creates a dichotomy in distillation outcomes. We prove that when a teacher provides confident supervision on unlearnable samples, it compels the student to memorize spurious noise patterns that eventually overpower the learned robust signal, thereby driving robust overfitting. Conversely, a teacher that exhibits high uncertainty on these samples effectively suppresses noise memorization, allowing the student to rely solely on the learnable signal for robust generalization. We empirically validate our theory across both synthetic simulations and real-image classification datasets, confirming that robust overfitting is driven by the teacher's interaction with unlearnable samples. Finally, we demonstrate that a teacher's predictive entropy on unlearnable samples serves as a strong indicator of student robustness, validating our theoretical framework and offering a principled guideline for robust teacher selection.