Multimodal Backdoor Attack on VLMs for Autonomous Driving via Graffiti and Cross-Lingual Triggers

📄 arXiv: 2604.04630 📥 PDF

作者: Jiancheng Wang, Lidan Liang, Yong Wang, Zengzhen Su, Haifeng Xia, Yuanting Yan, Wei Wang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出基于涂鸦和跨语言触发器的多模态后门攻击,威胁自动驾驶视觉语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 后门攻击 自动驾驶 多模态攻击 涂鸦触发器 跨语言触发器 安全漏洞 对抗性攻击

📋 核心要点

  1. 现有后门攻击依赖于易被检测的单模态触发器,难以在自动驾驶场景中构建隐蔽稳定的攻击。
  2. GLA利用stable diffusion生成融入城市环境的涂鸦视觉触发器,并结合跨语言文本触发器,提升隐蔽性和鲁棒性。
  3. 实验表明,GLA仅需少量投毒数据即可实现高攻击成功率,且不影响模型在干净数据上的性能。

📝 摘要(中文)

视觉语言模型(VLM)正迅速集成到自动驾驶等安全关键系统中,使其成为潜在后门攻击的重要攻击面。现有的后门攻击主要依赖于单模态、显式且易于检测的触发器,难以在自动驾驶场景中构建隐蔽且稳定的攻击通道。本文提出GLA,引入两种自然触发器:通过stable diffusion inpainting生成的基于涂鸦的视觉模式,无缝融入城市场景;以及跨语言文本触发器,引入分布偏移,同时保持语义一致性,以构建鲁棒的语言侧触发信号。在DriveVLM上的实验表明,GLA仅需10%的投毒率即可达到90%的攻击成功率(ASR)和0%的假阳性率(FPR)。更隐蔽的是,后门不会削弱模型在干净任务上的性能,反而会提高BLEU-1等指标,使得传统的基于性能下降的检测方法难以识别攻击。这项研究揭示了自动驾驶VLM中被低估的安全威胁,并为安全关键型多模态系统中的后门评估提供了一种新的攻击范例。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的后门攻击方法依赖于明显的、容易被检测到的单模态触发器,例如图像上的特定图案或文本中的特定关键词。这些触发器在自动驾驶等安全关键场景中容易被发现和防御,因此需要更隐蔽、更鲁棒的攻击方法。现有方法的另一个痛点是,后门攻击通常会导致模型在干净数据上的性能下降,这使得基于性能下降的检测方法能够识别出攻击。

核心思路:本文的核心思路是设计一种多模态的、自然的、难以察觉的后门触发器,该触发器能够同时利用视觉和语言模态的弱点,并且不会显著降低模型在干净数据上的性能。通过结合基于涂鸦的视觉触发器和跨语言的文本触发器,GLA旨在创建一个隐蔽且鲁棒的攻击通道,使得攻击难以被检测和防御。

技术框架:GLA的整体框架包括以下几个主要阶段:1) 触发器生成:使用stable diffusion inpainting生成融入城市环境的涂鸦视觉触发器,并选择与目标任务相关的跨语言文本作为语言触发器。2) 数据投毒:将带有触发器的图像-文本对注入到训练数据集中,以训练被污染的VLM。3) 后门激活:在测试阶段,当VLM接收到带有触发器的输入时,后门被激活,导致模型产生预设的错误输出。4) 模型评估:评估后门攻击的成功率、隐蔽性和对干净数据性能的影响。

关键创新:GLA的关键创新在于其多模态触发器的设计,该触发器结合了视觉和语言模态的优势,使得攻击更加隐蔽和鲁棒。具体来说,基于涂鸦的视觉触发器能够自然地融入城市环境,难以被检测;而跨语言的文本触发器则引入了分布偏移,同时保持语义一致性,使得攻击更加难以被察觉。此外,GLA还能够避免模型在干净数据上的性能下降,使得传统的基于性能下降的检测方法失效。

关键设计:在视觉触发器方面,GLA使用stable diffusion inpainting生成逼真的涂鸦图像,并将其叠加到原始图像上。在语言触发器方面,GLA选择与目标任务相关的跨语言文本,例如将英文指令翻译成其他语言,并在翻译过程中引入细微的语义变化。在训练过程中,GLA使用交叉熵损失函数来优化模型的性能,并调整投毒率以平衡攻击成功率和模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GLA仅需10%的投毒率即可达到90%的攻击成功率(ASR)和0%的假阳性率(FPR)。更重要的是,GLA不会降低模型在干净任务上的性能,反而会提高BLEU-1等指标,使得传统的基于性能下降的检测方法难以识别攻击。这些结果表明,GLA是一种非常隐蔽且有效的后门攻击方法。

🎯 应用场景

该研究成果可应用于评估和提升自动驾驶系统中视觉语言模型的安全性。通过模拟真实的攻击场景,可以帮助开发者发现VLM中潜在的安全漏洞,并开发相应的防御机制。此外,该研究也为其他安全关键型多模态系统的后门攻击评估提供了新的思路和方法。

📄 摘要(原文)

Visual language model (VLM) is rapidly being integrated into safety-critical systems such as autonomous driving, making it an important attack surface for potential backdoor attacks. Existing backdoor attacks mainly rely on unimodal, explicit, and easily detectable triggers, making it difficult to construct both covert and stable attack channels in autonomous driving scenarios. GLA introduces two naturalistic triggers: graffiti-based visual patterns generated via stable diffusion inpainting, which seamlessly blend into urban scenes, and cross-language text triggers, which introduce distributional shifts while maintaining semantic consistency to build robust language-side trigger signals. Experiments on DriveVLM show that GLA requires only a 10\% poisoning ratio to achieve a 90\% Attack Success Rate (ASR) and a 0\% False Positive Rate (FPR). More insidiously, the backdoor does not weaken the model on clean tasks, but instead improves metrics such as BLEU-1, making it difficult for traditional performance-degradation-based detection methods to identify the attack. This study reveals underestimated security threats in self-driving VLMs and provides a new attack paradigm for backdoor evaluation in safety-critical multimodal systems.