Model Mimic Attack: Knowledge Distillation for Provably Transferable Adversarial Examples

📄 arXiv: 2410.15889v1 📥 PDF

作者: Kirill Lukyanov, Andrew Perminov, Denis Turdakov, Mikhail Pautov

分类: cs.LG, cs.AI

发布日期: 2024-10-21


💡 一句话要点

提出基于知识蒸馏的模型模仿攻击,提升黑盒对抗样本的可迁移性并提供理论保证

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗攻击 黑盒攻击 知识蒸馏 模型迁移 对抗样本

📋 核心要点

  1. 黑盒对抗攻击通常需要大量查询目标模型,效率是主要瓶颈。
  2. 利用知识蒸馏训练替代模型,并通过迭代训练扩展数据集,提升攻击的迁移性。
  3. 首次为知识蒸馏对抗攻击提供理论保证,证明在一定条件下攻击成功率。

📝 摘要(中文)

本文研究了黑盒场景下,神经网络对对抗扰动的脆弱性问题。现有攻击方法通常需要大量的查询才能找到对抗样本,效率低下。本文提出了一种基于知识蒸馏的方法,通过在不断扩展的数据集上迭代训练替代模型,来进行基于迁移的黑盒对抗攻击。据我们所知,这是第一个为基于知识蒸馏的分类神经网络攻击提供可证明保证的工作:我们证明,如果学生模型具有足够的学习能力,则保证在有限的蒸馏迭代次数内找到对教师模型的攻击。

🔬 方法详解

问题定义:论文旨在解决黑盒场景下,生成具有高迁移性的对抗样本的问题。现有的黑盒对抗攻击方法,例如基于查询的攻击,需要对目标模型进行大量的查询才能找到有效的对抗样本,这在实际应用中是不可行的,因为查询次数受到限制,且成本很高。因此,如何减少查询次数,提高对抗样本的生成效率和迁移性是关键挑战。

核心思路:论文的核心思路是利用知识蒸馏技术,训练一个替代模型(学生模型)来模仿目标模型(教师模型)的行为。通过在替代模型上生成对抗样本,然后将其迁移到目标模型上进行攻击。为了提高迁移性,论文采用迭代训练的方式,不断扩展训练数据集,使得学生模型能够更好地逼近教师模型的决策边界。

技术框架:整体框架包含以下几个主要阶段:1) 初始化学生模型;2) 使用初始数据集训练学生模型;3) 在学生模型上生成对抗样本,并将其添加到训练数据集中;4) 使用扩展后的数据集重新训练学生模型;5) 重复步骤3和4,直到满足停止条件(例如,达到最大迭代次数或攻击成功率达到阈值)。

关键创新:论文最重要的创新点在于,它为基于知识蒸馏的对抗攻击提供了可证明的保证。论文证明,如果学生模型具有足够的学习能力(例如,模型容量足够大),并且迭代次数足够多,那么一定可以找到能够成功攻击教师模型的对抗样本。这是首次为知识蒸馏对抗攻击提供理论支撑。

关键设计:论文的关键设计包括:1) 使用合适的知识蒸馏损失函数,例如KL散度,来训练学生模型;2) 设计有效的对抗样本生成方法,例如FGSM或PGD,在学生模型上生成对抗样本;3) 选择合适的停止条件,例如最大迭代次数或攻击成功率阈值;4) 理论分析中,对学生模型的学习能力进行了量化,并给出了攻击成功的迭代次数上界。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提供了知识蒸馏对抗攻击的理论保证,证明了在一定条件下攻击的必然成功。虽然实验结果未在摘要中明确给出,但强调了该方法在知识蒸馏对抗攻击领域的理论贡献,为后续研究提供了理论基础和指导。

🎯 应用场景

该研究成果可应用于提升黑盒对抗攻击的效率和成功率,例如在安全漏洞挖掘、恶意软件检测、以及对抗防御策略评估等领域。通过更高效地生成对抗样本,可以更好地评估和提升模型的鲁棒性,从而提高人工智能系统的安全性。

📄 摘要(原文)

The vulnerability of artificial neural networks to adversarial perturbations in the black-box setting is widely studied in the literature. The majority of attack methods to construct these perturbations suffer from an impractically large number of queries required to find an adversarial example. In this work, we focus on knowledge distillation as an approach to conduct transfer-based black-box adversarial attacks and propose an iterative training of the surrogate model on an expanding dataset. This work is the first, to our knowledge, to provide provable guarantees on the success of knowledge distillation-based attack on classification neural networks: we prove that if the student model has enough learning capabilities, the attack on the teacher model is guaranteed to be found within the finite number of distillation iterations.