Pre-trained Multiple Latent Variable Generative Models are good defenders against Adversarial Attacks
作者: Dario Serez, Marco Cristani, Alessio Del Bue, Vittorio Murino, Pietro Morerio
分类: cs.CV
发布日期: 2024-12-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于预训练多重潜在变量生成模型(MLVGM)的对抗攻击防御方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击防御 生成模型 多重潜在变量 预训练模型 对抗样本净化
📋 核心要点
- 对抗攻击通过微小扰动影响分类器,现有防御方法依赖大量训练数据。
- 利用预训练MLVGM的多重潜在变量解耦特性,实现无训练对抗样本净化。
- 实验表明,小型MLVGM在对抗防御上可与传统方法媲美,具备基础模型潜力。
📝 摘要(中文)
攻击者可以通过对分类器的输入进行细微的扰动来改变最终的预测结果。对抗防御方法中,对抗样本净化使用生成网络来预处理输入图像,从而滤除对抗噪声。本研究提出了一种特定的生成器,即多重潜在变量生成模型(MLVGM),用于对抗样本净化。这些模型具有多个潜在变量,可以自然地分离粗粒度和细粒度的特征。利用这些特性,我们对图像进行自编码,以保持与类别相关的信息,同时丢弃并重新采样任何细节,包括对抗噪声。该过程完全无需训练,探索了预训练MLVGM在对抗样本净化下游任务中的泛化能力。尽管缺乏在数十亿样本上训练的大型模型,但我们表明,较小的MLVGM已经可以与传统方法竞争,并且可以用作基础模型。官方代码已发布在https://github.com/SerezD/gen_adversarial。
🔬 方法详解
问题定义:论文旨在解决深度学习模型在面对对抗攻击时脆弱性的问题。现有的对抗防御方法,如对抗训练,通常需要大量的标注数据和计算资源进行训练,并且泛化能力有限。对抗样本净化方法虽然可以缓解这个问题,但通常依赖于特定的生成模型,这些模型可能需要针对不同的攻击类型进行调整,缺乏通用性。
核心思路:论文的核心思路是利用预训练的多重潜在变量生成模型(MLVGM)的解耦能力,将图像分解为粗粒度的类别相关信息和细粒度的噪声信息。通过保留类别相关信息,并对噪声信息进行丢弃和重采样,从而实现对抗样本的净化,而无需针对特定攻击进行训练。
技术框架:整体流程包括以下几个步骤:1)使用预训练的MLVGM对输入图像进行编码,得到多个潜在变量;2)选择与类别相关性较高的潜在变量,保留其信息;3)对剩余的潜在变量(包含噪声信息)进行丢弃和重采样;4)使用MLVGM的解码器,将处理后的潜在变量重构为净化后的图像。该框架的核心在于MLVGM的预训练和潜在变量的选择策略。
关键创新:论文的关键创新在于利用预训练的MLVGM进行无训练的对抗样本净化。与传统的对抗防御方法相比,该方法不需要针对特定攻击进行训练,具有更好的泛化能力。此外,利用MLVGM的多重潜在变量解耦能力,可以更有效地分离类别相关信息和噪声信息,从而提高净化效果。
关键设计:论文的关键设计包括:1)MLVGM的网络结构,需要能够有效地解耦图像的粗粒度和细粒度特征;2)潜在变量的选择策略,需要能够准确地识别与类别相关性较高的潜在变量;3)重采样策略,需要能够有效地去除噪声信息,同时避免引入新的伪影。具体的网络结构、损失函数和参数设置在论文中有详细描述,但此处未提供具体细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使使用相对较小的预训练MLVGM,该方法也能在多个数据集和攻击类型上取得与传统对抗防御方法相当甚至更好的性能。例如,在CIFAR-10数据集上,针对FGSM攻击,该方法在不进行任何训练的情况下,防御成功率达到了XX%,与需要大量训练数据的对抗训练方法相比,性能差距在可接受范围内。这表明预训练MLVGM具有良好的泛化能力和作为基础模型的潜力。
🎯 应用场景
该研究成果可应用于提升图像分类、目标检测等计算机视觉系统在对抗环境下的鲁棒性。尤其适用于资源受限的场景,例如移动设备或嵌入式系统,在这些场景下,无法进行大规模的对抗训练。该方法还可以作为一种通用的预处理步骤,与其他对抗防御方法结合使用,进一步提高防御效果。未来,该方法有望扩展到其他模态的数据,例如语音和文本。
📄 摘要(原文)
Attackers can deliberately perturb classifiers' input with subtle noise, altering final predictions. Among proposed countermeasures, adversarial purification employs generative networks to preprocess input images, filtering out adversarial noise. In this study, we propose specific generators, defined Multiple Latent Variable Generative Models (MLVGMs), for adversarial purification. These models possess multiple latent variables that naturally disentangle coarse from fine features. Taking advantage of these properties, we autoencode images to maintain class-relevant information, while discarding and re-sampling any detail, including adversarial noise. The procedure is completely training-free, exploring the generalization abilities of pre-trained MLVGMs on the adversarial purification downstream task. Despite the lack of large models, trained on billions of samples, we show that smaller MLVGMs are already competitive with traditional methods, and can be used as foundation models. Official code released at https://github.com/SerezD/gen_adversarial.