BadScan: An Architectural Backdoor Attack on Visual State Space Models

📄 arXiv: 2411.17283v1 📥 PDF

作者: Om Suhas Deshmukh, Sankalp Nagaonkar, Achyut Mani Tripathi, Ashish Mishra

分类: cs.CV

发布日期: 2024-11-26


💡 一句话要点

BadScan:针对视觉状态空间模型的架构后门攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 后门攻击 视觉状态空间模型 VMamba 位平面切片 架构安全

📋 核心要点

  1. 现有深度模型容易受到后门攻击,攻击者通过在训练数据中嵌入触发器,使模型在特定条件下产生错误分类。
  2. BadScan通过位平面切片技术生成难以察觉的后门图像,并在检测到触发器时替换VMamba中的扫描机制,从而实现攻击。
  3. 实验表明,BadScan攻击对VMamba模型及其变体非常有效,即使在重新训练后也能保持较高的触发精度比率。

📝 摘要(中文)

本文针对新型视觉状态空间模型(VMamba)的安全性进行了研究。VMamba利用状态空间机制(SSM)将图像视为patch序列,并在多个视觉任务中表现出色。然而,深度模型易受对抗攻击。本文首先评估了VMamba模型对现有后门攻击的鲁棒性。在此基础上,提出了一种新型的架构后门攻击BadScan,旨在欺骗VMamba模型。BadScan利用位平面切片技术创建视觉上难以察觉的后门图像。在测试阶段,如果通过修改后的触发patch的第k个位平面之间的异或运算检测到触发器,则VMamba的视觉状态空间(VSS)块中的传统2D选择性扫描(SS2D)机制将被替换为新设计的BadScan块,该块包含四种新开发的扫描模式。实验结果表明,BadScan后门攻击对视觉状态空间模型构成重大威胁,即使在从头开始完全重新训练后仍然有效。在CIFAR-10和ImageNet-1K数据集上的实验表明,虽然视觉状态空间模型通常对当前的后门攻击具有鲁棒性,但BadScan攻击特别有效,在误导VMamba模型及其变体方面实现了更高的触发精度比率(TAR)。

🔬 方法详解

问题定义:论文旨在解决视觉状态空间模型(特别是VMamba)在面对后门攻击时的脆弱性问题。现有的后门攻击方法可能无法有效欺骗VMamba,或者容易被检测和防御。因此,需要设计一种更隐蔽、更有效的后门攻击方法,以评估和提高VMamba的安全性。

核心思路:论文的核心思路是设计一种架构级别的后门攻击,即BadScan。BadScan不是简单地修改输入图像的像素值,而是在模型内部替换原有的扫描机制。通过在特定条件下激活替换后的扫描机制,可以有效地控制模型的输出,从而实现后门攻击。这种方法比传统的像素级攻击更难检测和防御,因为它直接影响了模型的内部结构。

技术框架:BadScan攻击主要包含以下几个阶段:1) 使用位平面切片技术生成带有触发器的后门图像。2) 修改VMamba模型的VSS块,引入BadScan块。3) 在测试阶段,检测输入图像中是否存在触发器。4) 如果检测到触发器,则将原有的SS2D机制替换为BadScan块。5) 使用BadScan块进行图像分类,从而实现后门攻击。

关键创新:BadScan的关键创新在于它是一种架构级别的后门攻击。与传统的像素级攻击不同,BadScan直接修改了模型的内部结构,使其更难被检测和防御。此外,BadScan还引入了四种新的扫描模式,进一步提高了攻击的隐蔽性和有效性。

关键设计:BadScan的关键设计包括:1) 使用位平面切片技术生成难以察觉的触发器。2) 设计BadScan块,该块包含四种新的扫描模式。3) 使用异或运算检测触发器,并在检测到触发器时替换原有的SS2D机制。4) 触发器的大小和位置、位平面的选择、扫描模式的设计等参数需要仔细调整,以最大化攻击的有效性和隐蔽性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BadScan攻击在CIFAR-10和ImageNet-1K数据集上对VMamba模型及其变体非常有效,实现了比现有后门攻击更高的触发精度比率(TAR)。即使在从头开始重新训练模型后,BadScan攻击仍然能够保持较高的攻击成功率,这表明BadScan攻击对视觉状态空间模型构成了严重的威胁。

🎯 应用场景

该研究成果可应用于评估和提高视觉状态空间模型在安全领域的鲁棒性。通过了解和防御BadScan攻击,可以增强图像分类系统、目标检测系统等应用的安全性和可靠性,防止恶意攻击者利用后门控制模型行为,保障关键基础设施和敏感信息的安全。

📄 摘要(原文)

The newly introduced Visual State Space Model (VMamba), which employs \textit{State Space Mechanisms} (SSM) to interpret images as sequences of patches, has shown exceptional performance compared to Vision Transformers (ViT) across various computer vision tasks. However, recent studies have highlighted that deep models are susceptible to adversarial attacks. One common approach is to embed a trigger in the training data to retrain the model, causing it to misclassify data samples into a target class, a phenomenon known as a backdoor attack. In this paper, we first evaluate the robustness of the VMamba model against existing backdoor attacks. Based on this evaluation, we introduce a novel architectural backdoor attack, termed BadScan, designed to deceive the VMamba model. This attack utilizes bit plane slicing to create visually imperceptible backdoored images. During testing, if a trigger is detected by performing XOR operations between the $k^{th}$ bit planes of the modified triggered patches, the traditional 2D selective scan (SS2D) mechanism in the visual state space (VSS) block of VMamba is replaced with our newly designed BadScan block, which incorporates four newly developed scanning patterns. We demonstrate that the BadScan backdoor attack represents a significant threat to visual state space models and remains effective even after complete retraining from scratch. Experimental results on two widely used image classification datasets, CIFAR-10, and ImageNet-1K, reveal that while visual state space models generally exhibit robustness against current backdoor attacks, the BadScan attack is particularly effective, achieving a higher Triggered Accuracy Ratio (TAR) in misleading the VMamba model and its variants.