On the Adversarial Transferability of Generalized "Skip Connections"
作者: Yisen Wang, Yichuan Mo, Dongxian Wu, Mingjie Li, Xingjun Ma, Zhouchen Lin
分类: cs.LG, cs.AI
发布日期: 2024-10-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出Skip Gradient Method (SGM),提升跳跃连接模型对抗样本的迁移性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 迁移学习 跳跃连接 深度学习 模型安全
📋 核心要点
- 现有深度模型依赖跳跃连接,但在对抗攻击下,其迁移性存在问题,缺乏有效提升方法。
- 提出Skip Gradient Method (SGM),通过调整反向传播中跳跃连接梯度的权重,提升对抗样本的迁移性。
- 实验表明,SGM在多种模型(ResNet、Transformer等)和任务(图像、NLP)上显著提升了对抗攻击的迁移性。
📝 摘要(中文)
跳跃连接是现代深度模型的重要组成部分,使其能够构建更深、更强大的模型。尽管跳跃连接在正常情况下取得了巨大的成功(在自然图像上实现了最先进的分类性能),但我们研究并发现了跳跃连接在对抗环境下的一个有趣的特性,即使用跳跃连接可以更容易地生成高度可迁移的对抗样本。具体来说,在类似ResNet的模型(具有跳跃连接)中,我们发现,在反向传播过程中,根据衰减因子,使用来自跳跃连接的更多梯度而不是残差模块的梯度,可以生成具有高迁移性的对抗样本。上述方法被称为跳跃梯度法(SGM)。虽然最初是从视觉领域的类似ResNet的模型开始,但我们将SGM进一步扩展到更先进的架构,包括Vision Transformers(ViTs)和具有长度可变路径的模型以及其他领域,即自然语言处理。我们对包括ResNets、Transformers、Inceptions、神经架构搜索和大型语言模型(LLMs)在内的各种模型进行了全面的迁移攻击。我们表明,在几乎所有情况下,采用SGM都可以大大提高所构建攻击的可迁移性。此外,考虑到实际使用的巨大复杂性,我们进一步证明了SGM甚至可以提高模型集成或目标攻击的可迁移性,以及针对当前防御的隐蔽性。最后,我们提供了关于SGM如何工作的理论解释和经验见解。我们的发现不仅激发了对模型架构特征的新的对抗研究,而且为安全模型架构设计提出了进一步的挑战。我们的代码可在https://github.com/mo666666/SGM获得。
🔬 方法详解
问题定义:论文旨在解决对抗样本在不同模型之间迁移性不足的问题。现有方法通常针对特定模型结构进行优化,导致生成的对抗样本在其他模型上的攻击效果不佳。特别是,对于包含跳跃连接的深度模型,如何有效利用跳跃连接的梯度信息来提升对抗样本的迁移性是一个挑战。
核心思路:论文的核心思路是,通过调整反向传播过程中跳跃连接和残差模块梯度的权重,使得生成的对抗样本更多地依赖于跳跃连接的特征,从而提高其在不同模型之间的迁移性。作者认为,跳跃连接在不同模型中具有一定的共性,因此基于跳跃连接生成的对抗样本更容易迁移。
技术框架:SGM方法主要包含以下几个步骤:1) 选择一个包含跳跃连接的源模型;2) 在反向传播过程中,使用一个衰减因子来调整跳跃连接和残差模块的梯度权重,使得跳跃连接的梯度权重更大;3) 使用调整后的梯度生成对抗样本;4) 将生成的对抗样本迁移到目标模型进行攻击。
关键创新:SGM的关键创新在于,它提出了一种简单而有效的方法来利用跳跃连接的梯度信息,从而提高对抗样本的迁移性。与现有方法相比,SGM不需要针对特定模型结构进行优化,具有更强的通用性和可扩展性。此外,SGM还提供了一种新的视角来理解跳跃连接在对抗攻击中的作用。
关键设计:SGM的关键设计在于衰减因子的选择。衰减因子决定了跳跃连接和残差模块梯度权重的比例。作者通过实验发现,合适的衰减因子可以显著提高对抗样本的迁移性。此外,SGM还可以与其他对抗攻击方法结合使用,进一步提高攻击效果。
📊 实验亮点
实验结果表明,SGM在多种模型(包括ResNet、Transformer、Inception等)和任务(包括图像分类和自然语言处理)上显著提升了对抗攻击的迁移性。例如,在ResNet模型上,SGM可以将对抗样本的迁移成功率提高10%以上。此外,SGM还可以提高对抗样本针对模型集成和目标攻击的迁移性,并增强其针对防御机制的隐蔽性。
🎯 应用场景
该研究成果可应用于提升深度学习模型的安全性,尤其是在对抗攻击场景下。通过提高对抗样本的迁移性,可以更有效地评估和防御模型的脆弱性。此外,该方法还可以用于生成更具鲁棒性的模型,提高其在实际应用中的可靠性。该研究对安全模型架构设计具有指导意义。
📄 摘要(原文)
Skip connection is an essential ingredient for modern deep models to be deeper and more powerful. Despite their huge success in normal scenarios (state-of-the-art classification performance on natural examples), we investigate and identify an interesting property of skip connections under adversarial scenarios, namely, the use of skip connections allows easier generation of highly transferable adversarial examples. Specifically, in ResNet-like models (with skip connections), we find that using more gradients from the skip connections rather than the residual modules according to a decay factor during backpropagation allows one to craft adversarial examples with high transferability. The above method is termed as Skip Gradient Method (SGM). Although starting from ResNet-like models in vision domains, we further extend SGM to more advanced architectures, including Vision Transformers (ViTs) and models with length-varying paths and other domains, i.e. natural language processing. We conduct comprehensive transfer attacks against various models including ResNets, Transformers, Inceptions, Neural Architecture Search, and Large Language Models (LLMs). We show that employing SGM can greatly improve the transferability of crafted attacks in almost all cases. Furthermore, considering the big complexity for practical use, we further demonstrate that SGM can even improve the transferability on ensembles of models or targeted attacks and the stealthiness against current defenses. At last, we provide theoretical explanations and empirical insights on how SGM works. Our findings not only motivate new adversarial research into the architectural characteristics of models but also open up further challenges for secure model architecture design. Our code is available at https://github.com/mo666666/SGM.