FACL-Attack: Frequency-Aware Contrastive Learning for Transferable Adversarial Attacks

📄 arXiv: 2407.20653v1 📥 PDF

作者: Hunmin Yang, Jongoh Jeong, Kuk-Jin Yoon

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-07-30

备注: Accepted to AAAI 2024, Project Page: https://FACL-Attack.github.io


💡 一句话要点

提出FACL-Attack,通过频域对比学习增强对抗样本的跨域和跨模型迁移性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗攻击 迁移学习 频域分析 对比学习 黑盒攻击

📋 核心要点

  1. 现有对抗攻击方法在黑盒场景,尤其是目标域和模型未知时,迁移性仍然不足,难以有效攻击。
  2. FACL-Attack通过频域分析,分离域不变的中频特征,并利用对比学习增强对抗样本的跨域和跨模型迁移能力。
  3. 实验表明,FACL-Attack生成的对抗扰动在跨域和跨模型攻击中表现出强大的迁移性,且不影响推理时间复杂度。

📝 摘要(中文)

深度神经网络因对抗样本固有的迁移性而容易受到安全风险的影响。尽管最近基于生成模型的攻击在展示强大的迁移性方面取得了成功,但在实际严格的黑盒设置中设计一种有效的攻击策略仍然是一个挑战,因为目标域和模型架构都是未知的。本文旨在探索频域中的特征对比方法,以生成在跨域和跨模型设置中都具有鲁棒性的对抗样本。为此,我们提出了两个仅在训练阶段使用的模块:一个频域感知域随机化(FADR)模块,用于随机化域相关的低频和高频分量;以及一个频率增强对比学习(FACL)模块,用于有效分离干净图像和扰动图像的域不变中频特征。通过广泛的跨域和跨模型实验,我们证明了生成的对抗扰动的强大迁移性,同时保持了推理时间复杂度。

🔬 方法详解

问题定义:论文旨在解决黑盒场景下对抗样本迁移性不足的问题。现有的对抗攻击方法在面对未知的目标域和模型架构时,生成的对抗样本往往难以成功攻击目标模型,泛化能力较差。尤其是在实际应用中,攻击者通常无法获取目标模型的任何信息,因此需要一种能够生成具有更强迁移性的对抗样本的方法。

核心思路:论文的核心思路是在频域中进行特征对比学习,从而增强对抗样本的迁移性。作者认为,图像的低频和高频分量通常与特定领域相关,而中频分量则更具有领域不变性。因此,通过在频域中分离干净图像和对抗样本的中频特征,可以使对抗样本更具有泛化能力,从而提高其在不同模型和数据集上的迁移性。

技术框架:FACL-Attack的整体框架主要包含两个模块:频域感知域随机化(FADR)模块和频率增强对比学习(FACL)模块。FADR模块用于随机化图像的低频和高频分量,从而模拟不同的领域环境。FACL模块则用于在频域中分离干净图像和对抗样本的中频特征,并利用对比学习损失函数来优化模型,从而增强对抗样本的迁移性。整个框架仅在训练阶段使用,推理阶段不需要额外的计算开销。

关键创新:FACL-Attack的关键创新在于将频域分析和对比学习相结合,用于生成具有更强迁移性的对抗样本。与传统的对抗攻击方法相比,FACL-Attack更加关注图像的频域特征,并通过对比学习来增强对抗样本的泛化能力。此外,FADR模块的设计也使得模型能够更好地适应不同的领域环境,从而进一步提高对抗样本的迁移性。

关键设计:FADR模块通过对图像进行傅里叶变换,然后随机化低频和高频分量的幅度谱来实现域随机化。FACL模块使用一个共享的编码器来提取干净图像和对抗样本的频域特征,然后利用对比学习损失函数来最大化干净图像和对抗样本之间的互信息,同时最小化同一图像的不同扰动版本之间的互信息。对比学习损失函数的具体形式为InfoNCE损失函数。此外,作者还使用了动量编码器来稳定训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FACL-Attack在跨域和跨模型攻击中均取得了显著的性能提升。例如,在针对不同图像分类模型的攻击中,FACL-Attack的攻击成功率比现有方法提高了10%以上。此外,FACL-Attack在跨数据集攻击中也表现出强大的迁移性,证明了其在实际黑盒场景中的有效性。

🎯 应用场景

FACL-Attack可应用于提高深度学习模型在安全敏感领域的鲁棒性,例如自动驾驶、人脸识别和医疗诊断。通过生成具有强大迁移性的对抗样本,可以更有效地评估和提升模型的安全性,防止恶意攻击。此外,该方法还可以用于防御对抗攻击,例如通过对抗训练来提高模型的鲁棒性。

📄 摘要(原文)

Deep neural networks are known to be vulnerable to security risks due to the inherent transferable nature of adversarial examples. Despite the success of recent generative model-based attacks demonstrating strong transferability, it still remains a challenge to design an efficient attack strategy in a real-world strict black-box setting, where both the target domain and model architectures are unknown. In this paper, we seek to explore a feature contrastive approach in the frequency domain to generate adversarial examples that are robust in both cross-domain and cross-model settings. With that goal in mind, we propose two modules that are only employed during the training phase: a Frequency-Aware Domain Randomization (FADR) module to randomize domain-variant low- and high-range frequency components and a Frequency-Augmented Contrastive Learning (FACL) module to effectively separate domain-invariant mid-frequency features of clean and perturbed image. We demonstrate strong transferability of our generated adversarial perturbations through extensive cross-domain and cross-model experiments, while keeping the inference time complexity.