Teach Me to Trick: Exploring Adversarial Transferability via Knowledge Distillation

📄 arXiv: 2507.21992v1 📥 PDF

作者: Siddhartha Pradhan, Shikshya Shiwakoti, Neha Bathuri

分类: cs.LG, cs.AI

发布日期: 2025-07-29

备注: 10 pages, 4 figures


💡 一句话要点

利用知识蒸馏提升对抗样本迁移性,加速黑盒攻击。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 对抗样本 黑盒攻击 迁移学习 模型鲁棒性

📋 核心要点

  1. 现有对抗样本生成方法在黑盒攻击中效率较低,迁移性不足,难以有效攻击目标模型。
  2. 利用知识蒸馏,将多个异构教师模型的知识迁移到学生模型,提升对抗样本的生成效率和迁移性。
  3. 实验表明,该方法在保证攻击成功率的同时,显著降低了对抗样本生成时间,最高可达六倍。

📝 摘要(中文)

本文研究了从多个异构教师模型进行知识蒸馏(KD)是否可以增强可迁移对抗样本的生成。使用ResNet50和DenseNet-161作为教师模型,采用基于课程切换和联合优化两种KD策略训练轻量级学生模型。然后,使用FG、FGS和PGD攻击,利用训练好的学生模型生成对抗样本,并在黑盒目标模型(GoogLeNet)上进行评估。结果表明,从多个教师模型蒸馏出的学生模型实现了与基于集成的基线相当的攻击成功率,同时将对抗样本生成时间减少了高达六倍。消融研究进一步表明,较低的温度设置和包含硬标签监督显著增强了迁移性。这些发现表明,KD不仅可以作为一种模型压缩技术,还可以作为提高黑盒对抗攻击效率和有效性的强大工具。

🔬 方法详解

问题定义:论文旨在解决黑盒对抗攻击中,对抗样本生成效率低和迁移性差的问题。现有的对抗样本生成方法,例如基于集成的方法,虽然可以提高迁移性,但计算成本很高,生成对抗样本耗时较长。因此,如何在保证攻击成功率的前提下,提高对抗样本的生成效率是一个重要的挑战。

核心思路:论文的核心思路是利用知识蒸馏技术,将多个异构的、训练好的教师模型的知识迁移到一个轻量级的学生模型中。通过让学生模型学习教师模型的预测分布,从而提高学生模型生成对抗样本的迁移性。同时,由于学生模型参数量较小,可以显著降低对抗样本的生成时间。

技术框架:整体框架包含两个主要阶段:知识蒸馏阶段和对抗样本生成与评估阶段。在知识蒸馏阶段,首先训练多个异构的教师模型(ResNet50和DenseNet-161)。然后,使用两种知识蒸馏策略(基于课程切换和联合优化)训练学生模型。在对抗样本生成与评估阶段,使用训练好的学生模型,采用FG、FGS和PGD等攻击方法生成对抗样本,并在黑盒目标模型(GoogLeNet)上评估对抗样本的攻击成功率。

关键创新:论文的关键创新在于将知识蒸馏技术应用于对抗样本生成,并探索了从多个异构教师模型进行知识蒸馏对对抗样本迁移性的影响。与传统的基于集成的方法相比,该方法可以在保证攻击成功率的前提下,显著降低对抗样本的生成时间。此外,论文还通过消融实验,分析了温度参数和硬标签监督对迁移性的影响。

关键设计:在知识蒸馏过程中,使用了两种策略:基于课程切换和联合优化。基于课程切换的策略是指,在训练过程中,交替使用不同的教师模型来指导学生模型的学习。联合优化策略是指,同时使用多个教师模型的预测分布来指导学生模型的学习。此外,论文还发现,较低的温度设置和包含硬标签监督可以显著增强迁移性。温度参数控制了教师模型预测分布的平滑程度,较低的温度可以使学生模型更加关注教师模型的hard targets。硬标签监督是指,在知识蒸馏过程中,同时使用真实标签来指导学生模型的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过知识蒸馏训练的学生模型,在黑盒攻击中取得了与基于集成的基线模型相当的攻击成功率,同时将对抗样本生成时间减少了高达六倍。消融实验还发现,较低的温度设置和包含硬标签监督可以显著增强对抗样本的迁移性。

🎯 应用场景

该研究成果可应用于提高黑盒对抗攻击的效率和有效性,例如在安全漏洞挖掘、恶意软件检测等领域。通过快速生成具有良好迁移性的对抗样本,可以更有效地评估和提升模型的鲁棒性,从而增强人工智能系统的安全性。

📄 摘要(原文)

We investigate whether knowledge distillation (KD) from multiple heterogeneous teacher models can enhance the generation of transferable adversarial examples. A lightweight student model is trained using two KD strategies: curriculum-based switching and joint optimization, with ResNet50 and DenseNet-161 as teachers. The trained student is then used to generate adversarial examples using FG, FGS, and PGD attacks, which are evaluated against a black-box target model (GoogLeNet). Our results show that student models distilled from multiple teachers achieve attack success rates comparable to ensemble-based baselines, while reducing adversarial example generation time by up to a factor of six. An ablation study further reveals that lower temperature settings and the inclusion of hard-label supervision significantly enhance transferability. These findings suggest that KD can serve not only as a model compression technique but also as a powerful tool for improving the efficiency and effectiveness of black-box adversarial attacks.