Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

📄 arXiv: 2406.04031v2 📥 PDF

作者: Zonghao Ying, Aishan Liu, Tianyuan Zhang, Zhengmin Yu, Siyuan Liang, Xianglong Liu, Dacheng Tao

分类: cs.CV, cs.CR

发布日期: 2024-06-06 (更新: 2024-07-01)


💡 一句话要点

提出双模态对抗提示攻击以解决视觉语言模型的安全性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越狱攻击 视觉语言模型 双模态 对抗性攻击 安全性评估

📋 核心要点

  1. 现有越狱攻击主要集中在视觉模态,无法有效应对同时融合视觉和文本特征的对齐模型。
  2. 本文提出双模态对抗提示攻击(BAP),通过优化文本和视觉提示的协同作用来实现越狱。
  3. 实验表明,该方法在多个数据集上攻击成功率平均提升29.03%,并在黑箱商业LVLMs上展示了潜力。

📝 摘要(中文)

在大型视觉语言模型(LVLMs)领域,越狱攻击作为一种红队方法,旨在绕过安全防护并揭示安全隐患。现有的越狱方法主要集中在视觉模态,仅对视觉输入进行扰动,面对同时融合视觉和文本特征的对齐模型时效果不佳。为了解决这一局限性,本文提出了双模态对抗提示攻击(BAP),通过协同优化文本和视觉提示来执行越狱。首先,我们在图像中对普遍有害的扰动进行对抗性嵌入,确保图像提示的LVLMs对任何有害查询做出积极响应。随后,利用对抗图像,我们优化具有特定有害意图的文本提示。实验结果表明,该方法在多个数据集和LVLMs上显著优于其他方法,攻击成功率平均提升29.03%。

🔬 方法详解

问题定义:本文旨在解决现有越狱攻击方法在面对融合视觉和文本特征的对齐模型时的有效性不足。现有方法仅对视觉输入进行扰动,无法充分利用文本信息。

核心思路:提出双模态对抗提示攻击(BAP),通过同时优化文本和视觉提示,确保对抗性扰动能够有效影响模型的输出。这样的设计使得攻击更具针对性和有效性。

技术框架:整体流程包括两个主要阶段:首先,在图像中嵌入对抗性扰动;其次,利用对抗图像优化文本提示。采用少量示例的查询无关语料指导扰动生成,并通过大型语言模型分析越狱失败案例,进行反馈迭代优化。

关键创新:最重要的创新在于双模态的协同优化策略,区别于传统方法仅关注视觉模态,能够更全面地利用模型的特征融合能力。

关键设计:在对抗扰动生成过程中,采用了特定的损失函数以确保扰动的有效性,并通过链式思维推理优化文本提示,确保每次迭代都能提升攻击效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,提出的双模态对抗提示攻击方法在多个数据集上攻击成功率平均提升29.03%,显著优于现有方法。此外,该方法在黑箱商业LVLMs(如Gemini和ChatGLM)上也展示了良好的攻击效果,表明其广泛适用性。

🎯 应用场景

该研究的潜在应用领域包括安全性测试、模型鲁棒性评估以及对抗性训练等。通过揭示视觉语言模型的安全隐患,研究成果能够帮助开发更安全的AI系统,提升其在实际应用中的可靠性和安全性。

📄 摘要(原文)

In the realm of large vision language models (LVLMs), jailbreak attacks serve as a red-teaming approach to bypass guardrails and uncover safety implications. Existing jailbreaks predominantly focus on the visual modality, perturbing solely visual inputs in the prompt for attacks. However, they fall short when confronted with aligned models that fuse visual and textual features simultaneously for generation. To address this limitation, this paper introduces the Bi-Modal Adversarial Prompt Attack (BAP), which executes jailbreaks by optimizing textual and visual prompts cohesively. Initially, we adversarially embed universally harmful perturbations in an image, guided by a few-shot query-agnostic corpus (e.g., affirmative prefixes and negative inhibitions). This process ensures that image prompt LVLMs to respond positively to any harmful queries. Subsequently, leveraging the adversarial image, we optimize textual prompts with specific harmful intent. In particular, we utilize a large language model to analyze jailbreak failures and employ chain-of-thought reasoning to refine textual prompts through a feedback-iteration manner. To validate the efficacy of our approach, we conducted extensive evaluations on various datasets and LVLMs, demonstrating that our method significantly outperforms other methods by large margins (+29.03% in attack success rate on average). Additionally, we showcase the potential of our attacks on black-box commercial LVLMs, such as Gemini and ChatGLM.