Backdoor Attacks on Prompt-Driven Video Segmentation Foundation Models
作者: Zongmin Zhang, Zhen Sun, Yifan Liao, Wenhan Dong, Xinlei He, Xingshuo Han, Shengmin Xu, Xinyi Huang
分类: cs.CV, cs.CR
发布日期: 2025-12-26
💡 一句话要点
提出BadVSFM,针对Prompt驱动的视频分割基础模型的后门攻击框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 视频分割 Prompt驱动 基础模型 对抗性攻击
📋 核心要点
- 现有的后门攻击方法在Prompt驱动的视频分割基础模型上效果不佳,因为模型训练过程中触发样本和干净样本的梯度对齐,注意力机制也集中在真实物体上。
- BadVSFM通过两阶段策略解决此问题:首先引导图像编码器区分触发帧和干净帧的嵌入表示,然后训练掩码解码器使触发帧生成一致的目标掩码。
- 实验表明,BadVSFM在保持干净分割质量的同时,实现了强大且可控的后门攻击效果,并且对多种防御手段具有较强的抵抗能力。
📝 摘要(中文)
Prompt驱动的视频分割基础模型(VSFM),如SAM2,越来越多地应用于自动驾驶和数字病理等领域,引发了对后门威胁的担忧。令人惊讶的是,我们发现直接将经典后门攻击(如BadNet)迁移到VSFM几乎无效,攻击成功率低于5%。为了理解这一点,我们研究了编码器梯度和注意力图,观察到传统训练保持了干净样本和触发样本的梯度基本对齐,同时注意力仍然集中在真实对象上,阻止了编码器学习到与触发器相关的独特表示。为了解决这个挑战,我们提出了BadVSFM,这是第一个专门为prompt驱动的VSFM量身定制的后门框架。BadVSFM使用两阶段策略:(1)引导图像编码器,使触发帧映射到指定的目标嵌入,而干净帧保持与干净参考编码器对齐;(2)训练掩码解码器,使得在各种prompt类型下,触发帧-prompt对产生共享的目标掩码,而干净输出保持接近参考解码器。在两个数据集和五个VSFM上的大量实验表明,BadVSFM在不同的触发器和prompt下实现了强大且可控的后门效果,同时保持了干净分割质量。对损失、阶段、目标、触发器设置和中毒率的消融研究表明了对合理超参数变化的鲁棒性,并证实了两阶段设计的必要性。最后,梯度冲突分析和注意力可视化表明,BadVSFM分离了触发的和干净的表示,并将注意力转移到触发区域,而四种代表性的防御措施仍然基本无效,揭示了当前VSFM中一个未被充分探索的漏洞。
🔬 方法详解
问题定义:论文旨在解决Prompt驱动的视频分割基础模型(VSFM)的后门攻击问题。现有的后门攻击方法,例如直接应用BadNet,在VSFM上效果很差,攻击成功率很低。这是因为VSFM在训练过程中,干净样本和被触发的样本在编码器中梯度方向相似,注意力机制仍然关注真实物体,导致编码器无法学习到与触发器相关的有效表示。
核心思路:论文的核心思路是设计一个专门针对Prompt驱动的VSFM的后门攻击框架,该框架能够有效地分离触发样本和干净样本的表示,并诱导模型在触发时输出预设的目标掩码。通过两阶段的训练策略,分别控制编码器和解码器的行为,从而实现可控的后门攻击。
技术框架:BadVSFM框架包含两个主要阶段: 1. 编码器引导阶段:此阶段的目标是使图像编码器能够区分触发帧和干净帧。通过引入损失函数,促使触发帧的嵌入表示接近预设的目标嵌入,同时保持干净帧的嵌入表示与参考编码器的输出对齐。 2. 解码器训练阶段:此阶段的目标是训练掩码解码器,使其在接收到触发帧和prompt时,输出预设的目标掩码。通过引入损失函数,促使触发帧-prompt对生成共享的目标掩码,同时保持干净帧的输出接近参考解码器的输出。
关键创新:BadVSFM的关键创新在于其两阶段的训练策略,该策略能够有效地分离触发样本和干净样本的表示,并诱导模型在触发时输出预设的目标掩码。与直接迁移经典后门攻击方法不同,BadVSFM充分考虑了Prompt驱动的VSFM的特性,并针对性地设计了训练策略。
关键设计: * 目标嵌入:为触发帧设定一个特定的目标嵌入,用于引导编码器的学习。 * 参考编码器和解码器:使用预训练的干净模型作为参考,以保持干净样本的性能。 * 损失函数:设计了多种损失函数,包括用于引导编码器学习的嵌入损失,以及用于训练解码器的掩码损失。 * 触发器设置:实验中使用了多种触发器,包括像素级别的触发器和图像级别的触发器。 * 中毒率:实验中研究了不同中毒率对攻击效果的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BadVSFM在两个数据集和五个VSFM上实现了强大的后门攻击效果,攻击成功率远高于直接迁移的经典后门攻击方法。消融实验验证了两阶段设计的必要性,并表明BadVSFM对超参数变化具有鲁棒性。梯度冲突分析和注意力可视化表明,BadVSFM能够有效地分离触发样本和干净样本的表示,并将注意力转移到触发区域。此外,实验还表明,四种代表性的防御措施对BadVSFM基本无效。
🎯 应用场景
该研究成果可应用于评估和提升Prompt驱动的视频分割基础模型在安全领域的鲁棒性。通过BadVSFM,可以系统性地测试模型在面对恶意攻击时的脆弱性,并为开发更安全的模型提供指导。此外,该研究也提醒研究人员和开发者关注新兴AI模型中的潜在安全风险,并采取相应的防御措施,例如在自动驾驶、医疗影像分析等安全攸关的应用中。
📄 摘要(原文)
Prompt-driven Video Segmentation Foundation Models (VSFMs) such as SAM2 are increasingly deployed in applications like autonomous driving and digital pathology, raising concerns about backdoor threats. Surprisingly, we find that directly transferring classic backdoor attacks (e.g., BadNet) to VSFMs is almost ineffective, with ASR below 5\%. To understand this, we study encoder gradients and attention maps and observe that conventional training keeps gradients for clean and triggered samples largely aligned, while attention still focuses on the true object, preventing the encoder from learning a distinct trigger-related representation. To address this challenge, we propose BadVSFM, the first backdoor framework tailored to prompt-driven VSFMs. BadVSFM uses a two-stage strategy: (1) steer the image encoder so triggered frames map to a designated target embedding while clean frames remain aligned with a clean reference encoder; (2) train the mask decoder so that, across prompt types, triggered frame-prompt pairs produce a shared target mask, while clean outputs stay close to a reference decoder. Extensive experiments on two datasets and five VSFMs show that BadVSFM achieves strong, controllable backdoor effects under diverse triggers and prompts while preserving clean segmentation quality. Ablations over losses, stages, targets, trigger settings, and poisoning rates demonstrate robustness to reasonable hyperparameter changes and confirm the necessity of the two-stage design. Finally, gradient-conflict analysis and attention visualizations show that BadVSFM separates triggered and clean representations and shifts attention to trigger regions, while four representative defenses remain largely ineffective, revealing an underexplored vulnerability in current VSFMs.