Phantasia: Context-Adaptive Backdoors in Vision Language Models

📄 arXiv: 2604.08395v1 📥 PDF

作者: Nam Duong Tran, Phi Le Nguyen

分类: cs.CV, cs.AI

发布日期: 2026-04-09

备注: CVPR 2026 Findings


💡 一句话要点

提出Phantasia:一种视觉语言模型中上下文自适应的后门攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 后门攻击 上下文自适应 模型安全 多模态学习

📋 核心要点

  1. 现有VLM后门攻击依赖固定模式,易被检测,隐蔽性被高估。
  2. Phantasia通过动态对齐恶意输出与输入语义,生成上下文连贯的响应。
  3. 实验表明Phantasia在保持良性性能的同时,显著提升了攻击成功率。

📝 摘要(中文)

视觉语言模型(VLM)的最新进展极大地增强了视觉感知和语言推理的集成,推动了多模态理解的快速发展。尽管取得了这些成就,但VLM的安全性,特别是它们对后门攻击的脆弱性,仍然很大程度上未被探索。现有的VLM后门攻击仍处于早期发展阶段,目前大多数方法依赖于生成包含固定、易于识别的模式的恶意响应。本文做出了两个关键贡献。首先,我们首次证明了现有VLM后门攻击的隐蔽性被大大高估了。通过调整最初为其他领域(例如,纯视觉和纯文本模型)设计的防御技术,我们表明几种最先进的攻击可以很容易地被检测到。其次,为了解决这个差距,我们引入了Phantasia,一种上下文自适应的后门攻击,可以动态地将其恶意输出与每个输入的语义对齐。Phantasia鼓励模型生成上下文连贯但恶意的响应,从而保持合理性,从而显着提高隐蔽性和适应性。对各种VLM架构进行的大量实验表明,Phantasia在各种防御设置下实现了最先进的攻击成功率,同时保持了良性性能。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的后门攻击方法主要依赖于生成包含固定、易于识别的模式的恶意响应。这些静态的后门模式容易被检测,导致攻击的隐蔽性较差。因此,如何设计一种更隐蔽、更难被检测的VLM后门攻击是一个关键问题。

核心思路:Phantasia的核心思路是使后门攻击的输出与输入上下文语义对齐,从而生成上下文连贯且合理的恶意响应。通过这种方式,攻击不再依赖于固定的、易于识别的模式,而是根据不同的输入动态地生成不同的恶意输出,从而提高攻击的隐蔽性和适应性。

技术框架:Phantasia的整体框架包括以下几个关键步骤:首先,利用输入图像和文本描述生成上下文表示。然后,基于上下文表示,生成与输入语义相关的恶意响应。最后,通过特定的训练策略,使VLM在特定触发条件下生成这些恶意响应,从而实现后门攻击。

关键创新:Phantasia最重要的技术创新点在于其上下文自适应性。与现有方法不同,Phantasia不是生成固定的后门模式,而是根据输入动态地生成恶意响应,从而显著提高了攻击的隐蔽性和适应性。这种上下文自适应性使得攻击更难被检测和防御。

关键设计:Phantasia的关键设计包括:1) 使用预训练的视觉语言模型(如CLIP)提取图像和文本的特征,并融合这些特征以获得上下文表示;2) 设计特定的损失函数,鼓励模型生成与上下文语义相关的恶意响应;3) 使用对抗训练等技术,进一步提高攻击的鲁棒性和隐蔽性。具体的参数设置和网络结构需要根据不同的VLM架构进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Phantasia在多种VLM架构上实现了最先进的攻击成功率,同时保持了良好的良性性能。与现有后门攻击方法相比,Phantasia在各种防御设置下表现出更强的隐蔽性和适应性,能够有效绕过现有的防御机制。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

Phantasia的研究成果可以应用于评估和提升视觉语言模型的安全性。通过模拟真实的后门攻击场景,可以帮助研究人员发现VLM的潜在漏洞,并开发更有效的防御机制。此外,该研究还可以促进对多模态模型安全性的更深入理解,为开发更安全可靠的人工智能系统提供指导。

📄 摘要(原文)

Recent advances in Vision-Language Models (VLMs) have greatly enhanced the integration of visual perception and linguistic reasoning, driving rapid progress in multimodal understanding. Despite these achievements, the security of VLMs, particularly their vulnerability to backdoor attacks, remains significantly underexplored. Existing backdoor attacks on VLMs are still in an early stage of development, with most current methods relying on generating poisoned responses that contain fixed, easily identifiable patterns. In this work, we make two key contributions. First, we demonstrate for the first time that the stealthiness of existing VLM backdoor attacks has been substantially overestimated. By adapting defense techniques originally designed for other domains (e.g., vision-only and text-only models), we show that several state-of-the-art attacks can be detected with surprising ease. Second, to address this gap, we introduce Phantasia, a context-adaptive backdoor attack that dynamically aligns its poisoned outputs with the semantics of each input. Instead of producing static poisoned patterns, Phantasia encourages models to generate contextually coherent yet malicious responses that remain plausible, thereby significantly improving stealth and adaptability. Extensive experiments across diverse VLM architectures reveal that Phantasia achieves state-of-the-art attack success rates while maintaining benign performance under various defensive settings.