Test-Time Defense Against Adversarial Attacks via Stochastic Resonance of Latent Ensembles
作者: Dong Lao, Yuxiang Zhang, Haniyeh Ehsani Oskouie, Yangchao Wu, Alex Wong, Stefano Soatto
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-10-03
💡 一句话要点
提出基于潜空间集成的随机共振对抗攻击防御方法,无需训练且适用多种任务。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 对抗攻击防御 随机共振 潜空间集成 测试时防御 图像分类 立体匹配 光流估计
📋 核心要点
- 现有对抗防御方法依赖特征过滤或平滑,易造成信息损失,鲁棒性提升有限。
- 利用随机共振原理,通过引入微小扰动并集成特征,在不损失信息的前提下增强模型鲁棒性。
- 实验表明,该方法在图像分类、立体匹配和光流等任务上均取得了显著的防御效果。
📝 摘要(中文)
本文提出了一种针对对抗攻击的测试时防御机制,该机制通过不可察觉的图像扰动来显著改变模型的预测结果。与依赖特征过滤或平滑(可能导致信息丢失)的现有方法不同,我们提出通过利用随机共振来“以噪制噪”,从而在最小化信息损失的同时增强鲁棒性。我们的方法对输入图像引入小的平移扰动,对齐变换后的特征嵌入,并在映射回原始参考图像之前聚合它们。这可以用一个闭式公式表示,可以部署在各种现有的网络架构上,而无需引入额外的网络模块或针对特定攻击类型进行微调。该方法完全无需训练,与架构无关,并且与攻击无关。经验结果表明,在图像分类方面具有最先进的鲁棒性,并且首次为密集预测任务(包括立体匹配和光流)建立了通用的测试时防御,突出了该方法的多功能性和实用性。具体而言,相对于干净(未扰动)的性能,我们的方法在各种类型的对抗攻击下,在图像分类上恢复了高达 68.1% 的准确率损失,在立体匹配上恢复了 71.9% 的准确率损失,在光流上恢复了 29.2% 的准确率损失。
🔬 方法详解
问题定义:对抗攻击通过对输入图像添加微小扰动,导致深度学习模型产生错误的预测。现有防御方法,如特征过滤或平滑,虽然能降低模型对扰动的敏感性,但往往会损失图像中的关键信息,影响模型在干净数据上的性能。因此,如何在防御对抗攻击的同时,保持模型对原始信息的敏感性是一个关键问题。
核心思路:本文的核心思路是利用随机共振的原理,即适量的噪声反而可以增强信号的强度。通过对输入图像引入一系列微小的平移扰动,并将这些扰动后的特征进行集成,可以有效地抵御对抗攻击,同时保留原始图像的信息。这种“以噪制噪”的方法避免了传统方法中信息损失的问题。
技术框架:该方法的整体流程如下:1) 对输入图像进行多次微小的平移扰动;2) 将扰动后的图像输入到预训练的深度学习模型中,提取特征嵌入;3) 对齐这些特征嵌入,消除扰动带来的影响;4) 将对齐后的特征嵌入进行聚合,得到最终的特征表示;5) 将最终的特征表示映射回原始图像空间,进行预测。整个过程无需额外的网络模块或训练。
关键创新:该方法最重要的创新点在于利用随机共振的原理,通过引入微小扰动并集成特征,在不损失信息的前提下增强模型鲁棒性。与现有方法相比,该方法无需训练,与模型架构无关,且对不同类型的对抗攻击具有通用性。此外,该方法首次将随机共振应用于密集预测任务的对抗防御。
关键设计:该方法的关键设计包括:1) 平移扰动的幅度:需要选择合适的扰动幅度,既能有效地抵御对抗攻击,又不会对原始图像的信息造成过大的影响;2) 特征对齐方法:需要设计一种有效的特征对齐方法,消除平移扰动带来的影响,保证特征的一致性;3) 特征聚合方法:需要选择合适的特征聚合方法,将多个扰动后的特征进行融合,得到最终的特征表示。论文中采用了一种闭式解的特征聚合方法,计算效率高,易于实现。
📊 实验亮点
该方法在图像分类、立体匹配和光流等任务上均取得了显著的防御效果。在图像分类任务中,相对于干净数据,该方法在各种对抗攻击下恢复了高达 68.1% 的准确率损失。在立体匹配和光流任务中,分别恢复了 71.9% 和 29.2% 的准确率损失。这些结果表明,该方法具有很强的鲁棒性和泛化能力,优于现有的对抗防御方法。
🎯 应用场景
该研究成果可广泛应用于各种需要高安全性和鲁棒性的图像识别和理解系统,例如自动驾驶、人脸识别、医疗图像分析、安全监控等领域。该方法无需训练的特性使其能够快速部署到现有系统中,具有很高的实际应用价值。未来,可以进一步研究如何自适应地调整扰动幅度,以获得更好的防御效果。
📄 摘要(原文)
We propose a test-time defense mechanism against adversarial attacks: imperceptible image perturbations that significantly alter the predictions of a model. Unlike existing methods that rely on feature filtering or smoothing, which can lead to information loss, we propose to "combat noise with noise" by leveraging stochastic resonance to enhance robustness while minimizing information loss. Our approach introduces small translational perturbations to the input image, aligns the transformed feature embeddings, and aggregates them before mapping back to the original reference image. This can be expressed in a closed-form formula, which can be deployed on diverse existing network architectures without introducing additional network modules or fine-tuning for specific attack types. The resulting method is entirely training-free, architecture-agnostic, and attack-agnostic. Empirical results show state-of-the-art robustness on image classification and, for the first time, establish a generic test-time defense for dense prediction tasks, including stereo matching and optical flow, highlighting the method's versatility and practicality. Specifically, relative to clean (unperturbed) performance, our method recovers up to 68.1% of the accuracy loss on image classification, 71.9% on stereo matching, and 29.2% on optical flow under various types of adversarial attacks.