Transferable Adversarial Attacks on SAM and Its Downstream Models
作者: Song Xia, Wenhan Yang, Yi Yu, Xun Lin, Henghui Ding, Ling-Yu Duan, Xudong Jiang
分类: cs.LG, cs.CR, cs.CV
发布日期: 2024-10-26 (更新: 2025-04-21)
备注: update fig 1
🔗 代码/项目: GITHUB
💡 一句话要点
提出UMI-GRAT,实现对SAM及其下游模型的可迁移对抗攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 迁移学习 基础模型 SAM 梯度鲁棒性 通用元初始化 计算机视觉
📋 核心要点
- 现有基于迁移的对抗攻击通常需要访问下游任务数据或训练替代模型,成本较高且适用性受限。
- 提出通用元初始化(UMI)和梯度鲁棒对抗攻击(UMI-GRAT),利用基础模型的固有脆弱性和梯度鲁棒性提升攻击迁移性。
- 实验表明,UMI-GRAT能有效攻击SAM及其下游模型,无需访问下游数据或训练替代模型,降低了攻击成本。
📝 摘要(中文)
大型基础模型的应用面临一个两难境地:微调下游任务能够利用其泛化知识,但开放性也带来了恶意使用的威胁。本文首次探索了仅利用开源的SAM信息,对抗攻击由SAM微调得到的各种下游模型的可行性。与现有的基于迁移的对抗攻击不同,本文证明了即使不访问下游任务和数据集来训练类似的替代模型,也存在对抗风险。为了提高对抗攻击对未知数据集上微调模型的有效性,本文提出了一种通用元初始化(UMI)算法,以提取基础模型中固有的脆弱性,并将其用作先验知识来指导对抗扰动的生成。此外,通过公式化开源SAM与其微调下游模型在攻击过程中的梯度差异,理论上证明了直接最大化开源SAM中编码特征嵌入的距离会导致对抗更新方向的偏差。因此,本文提出了一种梯度鲁棒损失,该损失通过模拟与基于梯度的噪声增强相关的不确定性来增强生成的对抗样本(AEs)对这种偏差的鲁棒性,从而提高可迁移性。大量实验证明了所提出的通用元初始化和梯度鲁棒对抗攻击(UMI-GRAT)对SAM及其下游模型的有效性。代码已在https://github.com/xiasong0501/GRAT上提供。
🔬 方法详解
问题定义:论文旨在解决如何有效地对抗攻击基于Segment Anything Model (SAM) 微调的下游模型,而无需访问下游任务的数据集或训练替代模型。现有的迁移对抗攻击方法通常依赖于下游任务的数据或需要训练一个替代模型,这在实际应用中可能不可行或成本过高。因此,如何在仅利用开源SAM的信息下,实现对下游模型的有效攻击是一个挑战。
核心思路:论文的核心思路是利用SAM本身固有的脆弱性,并结合梯度鲁棒性来生成更具迁移性的对抗样本。具体来说,首先通过通用元初始化(UMI)算法提取SAM的固有脆弱性,然后利用梯度鲁棒损失来模拟SAM与其下游模型之间的梯度差异,从而增强对抗样本的鲁棒性,使其能够更好地迁移到下游模型。
技术框架:UMI-GRAT的整体框架包括两个主要部分:通用元初始化(UMI)和梯度鲁棒对抗攻击(GRAT)。UMI用于提取SAM的固有脆弱性,生成初始对抗扰动。GRAT则利用梯度鲁棒损失,在攻击过程中模拟SAM与其下游模型之间的梯度差异,从而生成更具迁移性的对抗样本。整个流程是在开源SAM上进行的,无需访问下游数据。
关键创新:论文的关键创新在于提出了通用元初始化(UMI)和梯度鲁棒损失。UMI能够有效地提取基础模型SAM的固有脆弱性,并将其作为先验知识来指导对抗扰动的生成。梯度鲁棒损失则通过模拟SAM与其下游模型之间的梯度差异,增强了对抗样本的鲁棒性,使其能够更好地迁移到下游模型。这与传统的迁移对抗攻击方法不同,传统方法通常依赖于下游数据或替代模型。
关键设计:UMI算法通过在多个随机初始化的输入上进行对抗训练,提取SAM的固有脆弱性。梯度鲁棒损失通过在梯度上添加噪声来模拟SAM与其下游模型之间的梯度差异,从而增强对抗样本的鲁棒性。具体来说,损失函数中包含一个梯度噪声项,该项鼓励生成的对抗样本对梯度扰动具有鲁棒性。此外,论文还对对抗扰动的幅度进行了限制,以保证对抗样本的隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的UMI-GRAT方法能够有效地攻击SAM及其下游模型,在多个下游任务上取得了显著的攻击成功率。与现有的迁移对抗攻击方法相比,UMI-GRAT在无需访问下游数据或训练替代模型的情况下,也能达到甚至超过现有方法的攻击效果,证明了其优越的迁移性和实用性。
🎯 应用场景
该研究成果可应用于评估和增强基于SAM的下游模型的安全性,例如在自动驾驶、医疗影像分析等领域。通过发现和缓解SAM及其下游模型的对抗脆弱性,可以提高这些系统在实际应用中的可靠性和安全性,防止恶意攻击和数据篡改。
📄 摘要(原文)
The utilization of large foundational models has a dilemma: while fine-tuning downstream tasks from them holds promise for making use of the well-generalized knowledge in practical applications, their open accessibility also poses threats of adverse usage. This paper, for the first time, explores the feasibility of adversarial attacking various downstream models fine-tuned from the segment anything model (SAM), by solely utilizing the information from the open-sourced SAM. In contrast to prevailing transfer-based adversarial attacks, we demonstrate the existence of adversarial dangers even without accessing the downstream task and dataset to train a similar surrogate model. To enhance the effectiveness of the adversarial attack towards models fine-tuned on unknown datasets, we propose a universal meta-initialization (UMI) algorithm to extract the intrinsic vulnerability inherent in the foundation model, which is then utilized as the prior knowledge to guide the generation of adversarial perturbations. Moreover, by formulating the gradient difference in the attacking process between the open-sourced SAM and its fine-tuned downstream models, we theoretically demonstrate that a deviation occurs in the adversarial update direction by directly maximizing the distance of encoded feature embeddings in the open-sourced SAM. Consequently, we propose a gradient robust loss that simulates the associated uncertainty with gradient-based noise augmentation to enhance the robustness of generated adversarial examples (AEs) towards this deviation, thus improving the transferability. Extensive experiments demonstrate the effectiveness of the proposed universal meta-initialized and gradient robust adversarial attack (UMI-GRAT) toward SAMs and their downstream models. Code is available at https://github.com/xiasong0501/GRAT.