DARD: Dice Adversarial Robustness Distillation against Adversarial Attacks
作者: Jing Zou, Shungeng Zhang, Meikang Qiu, Chong Li
分类: cs.LG
发布日期: 2025-09-15
备注: Accepted at SecureComm 2025, 15 pages, 4 figures
💡 一句话要点
提出Dice对抗鲁棒性蒸馏(DARD),提升模型在对抗攻击下的鲁棒性和标准准确率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对抗攻击 鲁棒性 知识蒸馏 对抗训练 Dice损失 深度学习 模型安全
📋 核心要点
- 对抗训练虽能提升模型鲁棒性,但常牺牲在自然数据上的准确率,且小模型鲁棒性不足。
- DARD通过知识蒸馏,将大模型的鲁棒性迁移到小模型,同时优化了攻击方法DPGD。
- 实验表明,DARD在相同架构下,超越了对抗训练网络,实现了更好的鲁棒性和标准准确率。
📝 摘要(中文)
深度学习模型容易受到对抗样本的攻击,这给实际应用带来了严重的安全挑战。对抗训练(AT)是一种广泛采用的增强鲁棒性的防御机制,但通常会降低模型在未扰动的自然数据上的性能,形成一种权衡。最近的研究表明,较大的模型比其较小的模型表现出更强的鲁棒性。在本文中,我们通过实验证明,这种鲁棒性可以系统地从大型教师模型提炼到紧凑的学生模型中。为了获得更好的性能,我们引入了Dice对抗鲁棒性蒸馏(DARD),这是一种新颖的方法,旨在通过定制的知识蒸馏范式来传递鲁棒性。此外,我们提出了一种针对有效攻击优化的对抗样本泛化方法Dice Projected Gradient Descent (DPGD)。大量的实验表明,DARD方法始终优于具有相同架构的对抗训练网络,实现了卓越的鲁棒性和标准准确率。
🔬 方法详解
问题定义:论文旨在解决深度学习模型在对抗攻击下的脆弱性问题。现有的对抗训练方法虽然可以提高模型的鲁棒性,但通常会导致模型在干净数据上的性能下降,并且小模型的鲁棒性提升有限。因此,如何在保证模型在干净数据上性能的同时,提升模型在对抗攻击下的鲁棒性,尤其是在资源受限的场景下,是一个重要的挑战。
核心思路:论文的核心思路是通过知识蒸馏,将大型教师模型所具有的鲁棒性迁移到小型学生模型中。大型模型通常具有更强的鲁棒性,但计算成本较高,不适合部署在资源受限的设备上。通过知识蒸馏,可以将大型模型的知识(包括鲁棒性)迁移到小型模型中,从而在保证模型大小的同时,提升模型的鲁棒性。
技术框架:DARD方法主要包含两个阶段:教师模型训练和学生模型蒸馏。首先,使用对抗训练方法训练一个大型的教师模型,使其具有较强的鲁棒性。然后,使用DARD方法将教师模型的知识蒸馏到小型学生模型中。DARD方法使用Dice损失函数来衡量教师模型和学生模型之间的差异,从而引导学生模型学习教师模型的鲁棒性。此外,论文还提出了一种新的对抗样本生成方法DPGD,用于生成更有效的对抗样本,从而更好地训练教师模型和蒸馏学生模型。
关键创新:DARD方法的关键创新在于使用了Dice损失函数进行知识蒸馏。传统的知识蒸馏方法通常使用KL散度或MSE损失函数来衡量教师模型和学生模型之间的差异。然而,这些损失函数可能无法很好地捕捉到教师模型的鲁棒性。Dice损失函数是一种用于衡量两个集合相似度的指标,可以更好地捕捉到教师模型和学生模型在对抗样本上的预测一致性,从而更好地传递鲁棒性。
关键设计:DARD方法的关键设计包括:1) 使用对抗训练方法训练教师模型,保证教师模型具有较强的鲁棒性;2) 使用Dice损失函数进行知识蒸馏,更好地传递教师模型的鲁棒性;3) 使用DPGD方法生成对抗样本,更好地训练教师模型和蒸馏学生模型。DPGD方法是对PGD方法的改进,通过引入Dice系数来优化对抗样本的生成过程,从而生成更有效的对抗样本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DARD方法在CIFAR-10和CIFAR-100数据集上,显著优于传统的对抗训练方法。例如,在CIFAR-10数据集上,DARD方法在PGD攻击下的鲁棒性比对抗训练方法提高了5%以上,同时在干净数据上的准确率也略有提升。此外,DARD方法在相同架构下,也优于其他知识蒸馏方法,证明了其有效性。
🎯 应用场景
DARD方法可应用于各种安全敏感的深度学习应用场景,如自动驾驶、人脸识别、医疗诊断等。通过提升模型在对抗攻击下的鲁棒性,可以有效防止恶意攻击,保障系统的安全性和可靠性。该方法尤其适用于资源受限的边缘设备,可以在保证模型性能的同时,降低计算成本,加速模型的部署和应用。
📄 摘要(原文)
Deep learning models are vulnerable to adversarial examples, posing critical security challenges in real-world applications. While Adversarial Training (AT ) is a widely adopted defense mechanism to enhance robustness, it often incurs a trade-off by degrading performance on unperturbed, natural data. Recent efforts have highlighted that larger models exhibit enhanced robustness over their smaller counterparts. In this paper, we empirically demonstrate that such robustness can be systematically distilled from large teacher models into compact student models. To achieve better performance, we introduce Dice Adversarial Robustness Distillation (DARD), a novel method designed to transfer robustness through a tailored knowledge distillation paradigm. Additionally, we propose Dice Projected Gradient Descent (DPGD), an adversarial example generalization method optimized for effective attack. Our extensive experiments demonstrate that the DARD approach consistently outperforms adversarially trained networks with the same architecture, achieving superior robustness and standard accuracy.