Adversarial Masked Autoencoder Purifier with Defense Transferability
作者: Yuan-Chih Chen, Chun-Shien Lu
分类: cs.CV
发布日期: 2025-01-28
💡 一句话要点
提出基于掩码自编码器的对抗样本净化器MAEP,提升防御迁移能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对抗防御 掩码自编码器 对抗样本 防御迁移 图像净化
📋 核心要点
- 现有对抗防御方法推理时间长,且依赖额外数据,泛化性不足。
- 提出MAEP,将MAE集成到对抗净化器框架,实现高效的测试时净化。
- 实验表明,MAEP在保持准确率的同时,具有良好的防御迁移性和攻击泛化性。
📝 摘要(中文)
对抗防御的研究仍在努力应对高级对抗攻击。与大多数依赖扩散模型进行测试时防御以显著增加推理时间的先前研究不同,我们提出了掩码自编码器净化器(MAEP),它将掩码自编码器(MAE)集成到对抗净化器框架中,用于测试时净化。虽然MAEP实现了有希望的对抗鲁棒性,但它的特点是模型防御的可迁移性和攻击的泛化性,而无需依赖于使用与训练数据集不同的额外数据。据我们所知,MAEP是第一个基于MAE的对抗净化器的研究。大量的实验结果表明,我们的方法不仅可以保持清晰的准确率,只有轻微的下降,而且还表现出干净准确率和鲁棒准确率之间的差距很小。值得注意的是,在CIFAR10上训练的MAEP即使直接在ImageNet上进行测试,也能达到最先进的性能,优于专门在ImageNet上训练的现有基于扩散的模型。
🔬 方法详解
问题定义:现有对抗防御方法,特别是基于扩散模型的方法,在测试时需要大量的计算资源,导致推理时间过长。此外,这些方法通常需要额外的训练数据,限制了其泛化能力和在不同数据集上的适用性。因此,需要一种更高效、更具泛化性的对抗防御方法。
核心思路:MAEP的核心思路是利用掩码自编码器(MAE)强大的图像重建能力,将对抗样本还原为干净样本,从而实现对抗防御。通过在对抗样本上应用MAE,可以去除对抗扰动,恢复原始图像的语义信息。同时,MAEP的设计目标是提高防御的迁移能力,使其能够在未见过的攻击和数据集上有效防御。
技术框架:MAEP的整体框架包括一个掩码自编码器(MAE)和一个对抗训练过程。首先,使用干净样本训练MAE,使其能够重建被掩码的图像区域。然后,在对抗训练过程中,使用对抗样本作为输入,通过MAE进行净化,并使用净化后的图像进行分类。通过对抗训练,MAEP能够学习到更鲁棒的特征表示,从而提高对抗防御能力。
关键创新:MAEP的关键创新在于将MAE引入对抗净化器框架,并实现了良好的防御迁移能力。与传统的对抗防御方法相比,MAEP不需要额外的训练数据,并且具有更快的推理速度。此外,MAEP的防御能力可以迁移到不同的数据集和攻击上,使其更具实用性。
关键设计:MAEP的关键设计包括掩码比例、MAE的网络结构和对抗训练策略。掩码比例决定了需要重建的图像区域的大小,MAE的网络结构决定了重建能力,对抗训练策略决定了模型的鲁棒性。论文中可能使用了较大的掩码比例以迫使模型学习更强的图像重建能力。损失函数可能包括重建损失和分类损失,以保证净化后的图像既能恢复原始语义信息,又能正确分类。
🖼️ 关键图片
📊 实验亮点
MAEP在CIFAR10上训练后,即使直接在ImageNet上进行测试,也能达到最先进的性能,优于专门在ImageNet上训练的现有基于扩散的模型。实验结果表明,MAEP不仅可以保持清晰的准确率,只有轻微的下降,而且还表现出干净准确率和鲁棒准确率之间的差距很小。这些结果验证了MAEP的有效性和防御迁移能力。
🎯 应用场景
MAEP可应用于各种图像分类任务中的对抗防御,例如自动驾驶、人脸识别、医疗图像分析等。该方法能够提高系统的安全性和可靠性,防止恶意攻击者利用对抗样本进行欺骗。此外,MAEP的防御迁移能力使其能够应用于更广泛的场景,例如在资源受限的设备上进行对抗防御。
📄 摘要(原文)
The study of adversarial defense still struggles to combat with advanced adversarial attacks. In contrast to most prior studies that rely on the diffusion model for test-time defense to remarkably increase the inference time, we propose Masked AutoEncoder Purifier (MAEP), which integrates Masked AutoEncoder (MAE) into an adversarial purifier framework for test-time purification. While MAEP achieves promising adversarial robustness, it particularly features model defense transferability and attack generalization without relying on using additional data that is different from the training dataset. To our knowledge, MAEP is the first study of adversarial purifier based on MAE. Extensive experimental results demonstrate that our method can not only maintain clear accuracy with only a slight drop but also exhibit a close gap between the clean and robust accuracy. Notably, MAEP trained on CIFAR10 achieves state-of-the-art performance even when tested directly on ImageNet, outperforming existing diffusion-based models trained specifically on ImageNet.