Instant Adversarial Purification with Adversarial Consistency Distillation
作者: Chun Tong Lei, Hon Ming Yam, Zhongliang Guo, Yifei Qian, Chun Pong Lau
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-08-30 (更新: 2025-03-21)
备注: Accepted by CVPR2025
💡 一句话要点
提出OSCP,通过对抗一致性蒸馏实现单步扩散模型对抗样本净化,显著提升效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对抗样本防御 扩散模型 对抗一致性蒸馏 单步净化 参数高效微调
📋 核心要点
- 扩散模型对抗净化方法计算开销大,限制了实际应用。
- 提出OSCP框架,通过GAND蒸馏和CAP推理,实现单步高效对抗净化。
- 在ImageNet上,OSCP仅用0.1秒即可达到74.19%的防御成功率,速度提升100倍。
📝 摘要(中文)
神经网络在众多领域表现出色,但易受对抗攻击影响。扩散模型净化方法如DiffPure具有潜力,但计算开销大。本文提出单步控制净化(OSCP)框架,在扩散模型中仅需单次神经函数评估(NFE)即可实现鲁棒的对抗净化。我们提出高斯对抗噪声蒸馏(GAND)作为蒸馏目标,控制对抗净化(CAP)作为推理流程。OSCP在保持防御效果的同时,显著提升效率。GAND解决了对抗扰动与一致性蒸馏之间的矛盾,弥合了潜在空间中自然流形和对抗流形之间的差距,并通过LoRA等参数高效微调(PEFT)方法保持计算效率。CAP通过输入图像计算出的不可学习的边缘检测算子作为额外提示,引导净化过程,有效防止净化后的图像偏离原始外观。在ImageNet上的实验结果表明,OSCP性能优越,仅需0.1秒即可实现74.19%的防御成功率,比传统方法快100倍。
🔬 方法详解
问题定义:论文旨在解决对抗样本的防御问题,特别是针对图像分类任务。现有基于扩散模型的对抗防御方法,例如DiffPure,虽然在防御效果上表现良好,但由于需要多次迭代的扩散过程,计算开销巨大,难以在实际应用中部署。因此,如何在保证防御效果的同时,显著降低计算复杂度,是本文要解决的核心问题。
核心思路:论文的核心思路是利用对抗一致性蒸馏,将复杂的多步扩散净化过程提炼成一个单步的神经网络操作。具体来说,通过高斯对抗噪声蒸馏(GAND)学习一个从对抗样本到干净样本的映射,并利用控制对抗净化(CAP)引导净化过程,防止过度失真。这样设计的目的是在保证净化效果的同时,将计算复杂度降低到可以接受的程度。
技术框架:OSCP框架主要包含两个阶段:训练阶段和推理阶段。在训练阶段,使用GAND作为蒸馏目标,训练一个单步的净化网络。GAND利用参数高效微调(PEFT)方法,例如LoRA,降低训练成本。在推理阶段,使用CAP作为推理流程,通过输入图像的边缘信息引导净化过程,防止净化后的图像偏离原始外观。整体流程是从对抗样本输入,经过单步净化网络,输出净化后的图像。
关键创新:论文的关键创新在于提出了GAND和CAP。GAND通过对抗一致性蒸馏,解决了对抗扰动与一致性蒸馏之间的矛盾,使得单步净化网络能够有效地去除对抗噪声。CAP则通过引入边缘信息,引导净化过程,防止过度平滑和失真。此外,使用PEFT方法降低了训练成本,使得GAND更易于训练。
关键设计:GAND的关键设计在于其损失函数,该损失函数旨在最小化对抗样本经过单步净化后的结果与干净样本之间的差异,同时保持净化后图像与原始图像的一致性。CAP的关键设计在于使用不可学习的边缘检测算子提取输入图像的边缘信息,并将这些边缘信息作为额外的提示输入到净化网络中,引导净化过程。具体使用的网络结构和参数设置在论文中有详细描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
OSCP在ImageNet数据集上取得了显著的性能提升。实验结果表明,OSCP仅需0.1秒即可实现74.19%的防御成功率,相比于传统的基于扩散模型的对抗防御方法,速度提升了100倍。这一结果表明,OSCP在保证防御效果的同时,显著降低了计算复杂度,使其更具实用价值。
🎯 应用场景
该研究成果可应用于各种图像分类任务中,提高模型在对抗环境下的鲁棒性。例如,可用于自动驾驶系统中,防御恶意攻击者通过对抗样本干扰车辆的感知系统;也可用于医疗图像分析中,提高诊断的准确性和可靠性。此外,该方法的高效性使其更易于部署在资源受限的设备上,具有广阔的应用前景。
📄 摘要(原文)
Neural networks have revolutionized numerous fields with their exceptional performance, yet they remain susceptible to adversarial attacks through subtle perturbations. While diffusion-based purification methods like DiffPure offer promising defense mechanisms, their computational overhead presents a significant practical limitation. In this paper, we introduce One Step Control Purification (OSCP), a novel defense framework that achieves robust adversarial purification in a single Neural Function Evaluation (NFE) within diffusion models. We propose Gaussian Adversarial Noise Distillation (GAND) as the distillation objective and Controlled Adversarial Purification (CAP) as the inference pipeline, which makes OSCP demonstrate remarkable efficiency while maintaining defense efficacy. Our proposed GAND addresses a fundamental tension between consistency distillation and adversarial perturbation, bridging the gap between natural and adversarial manifolds in the latent space, while remaining computationally efficient through Parameter-Efficient Fine-Tuning (PEFT) methods such as LoRA, eliminating the high computational budget request from full parameter fine-tuning. The CAP guides the purification process through the unlearnable edge detection operator calculated by the input image as an extra prompt, effectively preventing the purified images from deviating from their original appearance when large purification steps are used. Our experimental results on ImageNet showcase OSCP's superior performance, achieving a 74.19% defense success rate with merely 0.1s per purification -- a 100-fold speedup compared to conventional approaches.