Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection

📄 arXiv: 2507.02844v2 📥 PDF

作者: Ziqi Miao, Yi Ding, Lijun Li, Jing Shao

分类: cs.CV, cs.CL, cs.CR

发布日期: 2025-07-03 (更新: 2025-09-16)

备注: Accepted to EMNLP 2025 (Main). 17 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出VisCo攻击,通过图像驱动的上下文注入破解多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉攻击 越狱攻击 上下文注入 安全性评估

📋 核心要点

  1. 现有方法主要依赖视觉模态作为触发器,语义模糊且缺乏真实场景的支撑,难以有效破解多模态大语言模型。
  2. VisCo攻击通过构建以视觉为中心的上下文对话,动态生成辅助图像,创建更完整和真实的越狱场景。
  3. 实验表明,VisCo攻击在MM-SafetyBench上针对GPT-4o取得了显著提升,攻击成功率达到85%,毒性评分达到4.78。

📝 摘要(中文)

随着强大的视觉语言能力的出现,多模态大语言模型(MLLM)在实际应用中展现出巨大的潜力。然而,视觉模态所表现出的安全漏洞给在开放世界环境中部署此类模型带来了重大挑战。最近的研究已经通过将有害的文本语义直接编码到视觉输入中,成功地诱导目标MLLM产生有害的响应。然而,在这些方法中,视觉模态主要作为不安全行为的触发器,常常表现出语义模糊,并且缺乏在真实场景中的基础。在这项工作中,我们定义了一个新的设置:以视觉为中心的越狱,其中视觉信息是构建完整和真实的越狱上下文的必要组成部分。在此基础上,我们提出了VisCo(视觉上下文)攻击。VisCo使用四种不同的以视觉为中心的策略来构建上下文对话,并在必要时动态生成辅助图像,以构建以视觉为中心的越狱场景。为了最大限度地提高攻击效果,它结合了自动毒性混淆和语义细化,以产生最终的攻击提示,从而可靠地触发目标黑盒MLLM的有害响应。具体来说,VisCo在MM-SafetyBench上针对GPT-4o实现了4.78的毒性评分和85%的攻击成功率(ASR),显著优于基线,基线的毒性评分和攻击成功率分别为2.48和22.2%。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在视觉模态上的安全漏洞问题。现有方法主要依赖将有害文本语义编码到视觉输入中,但视觉模态仅作为触发器,缺乏真实场景的语义基础,导致攻击效果不佳。这些方法难以构建完整、可信的攻击上下文,从而限制了破解MLLM的能力。

核心思路:VisCo攻击的核心思路是以视觉信息为中心,构建一个完整的、真实的越狱上下文。通过精心设计的视觉提示和上下文对话,诱导MLLM产生有害响应。这种方法强调视觉信息在攻击中的必要性和主导作用,而非仅仅将其作为触发器。

技术框架:VisCo攻击主要包含以下几个阶段:1) 视觉上下文构建:利用四种不同的视觉策略生成上下文对话,包括图像描述、视觉推理、场景构建和目标识别。2) 辅助图像生成:根据上下文需求,动态生成辅助图像,增强视觉信息的丰富性和真实性。3) 毒性混淆:对生成的文本提示进行毒性混淆,避免被安全机制检测到。4) 语义细化:对提示进行语义优化,确保其逻辑性和连贯性,提高攻击成功率。5) 攻击执行:将最终的视觉提示和文本提示输入到目标MLLM,观察其响应。

关键创新:VisCo攻击的关键创新在于其以视觉为中心的越狱设置。与以往方法不同,VisCo将视觉信息视为构建完整攻击上下文的必要组成部分,而非简单的触发器。通过动态生成辅助图像和精心设计的上下文对话,VisCo能够创建更真实、更具欺骗性的攻击场景。

关键设计:VisCo攻击的关键设计包括:1) 四种视觉策略的选择,旨在覆盖不同的视觉任务和场景。2) 辅助图像生成器的选择和训练,确保生成的图像与上下文相关且具有一定的欺骗性。3) 毒性混淆算法的选择和参数调整,需要在避免被检测的同时,保持提示的语义完整性。4) 语义细化算法的选择和参数调整,旨在提高提示的逻辑性和连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisCo攻击在MM-SafetyBench上针对GPT-4o取得了显著的性能提升。攻击成功率(ASR)达到85%,相比基线的22.2%提升了近4倍。同时,毒性评分达到4.78,也远高于基线的2.48。这些结果表明,VisCo攻击能够有效地破解多模态大语言模型,并诱导其产生有害响应。

🎯 应用场景

该研究成果可应用于评估和提升多模态大语言模型在开放世界环境中的安全性。通过VisCo攻击,可以发现模型在处理视觉信息时存在的潜在漏洞,并为开发更鲁棒的安全防御机制提供指导。此外,该研究也为构建更安全的视觉语言交互系统提供了新的思路。

📄 摘要(原文)

With the emergence of strong vision language capabilities, multimodal large language models (MLLMs) have demonstrated tremendous potential for real-world applications. However, the security vulnerabilities exhibited by the visual modality pose significant challenges to deploying such models in open-world environments. Recent studies have successfully induced harmful responses from target MLLMs by encoding harmful textual semantics directly into visual inputs. However, in these approaches, the visual modality primarily serves as a trigger for unsafe behavior, often exhibiting semantic ambiguity and lacking grounding in realistic scenarios. In this work, we define a novel setting: vision-centric jailbreak, where visual information serves as a necessary component in constructing a complete and realistic jailbreak context. Building on this setting, we propose the VisCo (Visual Contextual) Attack. VisCo fabricates contextual dialogue using four distinct vision-focused strategies, dynamically generating auxiliary images when necessary to construct a vision-centric jailbreak scenario. To maximize attack effectiveness, it incorporates automatic toxicity obfuscation and semantic refinement to produce a final attack prompt that reliably triggers harmful responses from the target black-box MLLMs. Specifically, VisCo achieves a toxicity score of 4.78 and an Attack Success Rate (ASR) of 85% on MM-SafetyBench against GPT-4o, significantly outperforming the baseline, which achieves a toxicity score of 2.48 and an ASR of 22.2%. Code: https://github.com/Dtc7w3PQ/Visco-Attack.