White-box Multimodal Jailbreaks Against Large Vision-Language Models

📄 arXiv: 2405.17894v2 📥 PDF

作者: Ruofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye, Yu-Gang Jiang

分类: cs.CV, cs.AI

发布日期: 2024-05-28 (更新: 2024-10-14)


💡 一句话要点

提出白盒多模态越狱攻击方法,提升视觉-语言模型对抗鲁棒性评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗攻击 越狱攻击 多模态安全 通用主密钥

📋 核心要点

  1. 现有VLM对抗攻击主要集中在图像模态,忽略了文本模态的攻击潜力,导致评估不全面。
  2. 提出一种联合攻击图像和文本模态的通用主密钥(UMK)方法,旨在绕过VLM的对齐防御。
  3. 实验表明,该方法能有效越狱MiniGPT-4,成功率高达96%,揭示了VLM的脆弱性。

📝 摘要(中文)

本文研究了大型视觉-语言模型(VLMs)的对抗鲁棒性,指出现有方法主要通过图像扰动进行单模态攻击,忽略了文本攻击的潜力。为此,提出了一种更全面的策略,联合攻击文本和图像模态,以挖掘VLMs的更广泛漏洞。该方法设计了一个双重优化目标,旨在引导模型生成具有高毒性的肯定性响应。首先,通过优化随机噪声生成的对抗性图像前缀,在没有文本输入的情况下产生多样化的有害响应,从而使图像具有毒性语义。然后,集成对抗性文本后缀,并与对抗性图像前缀共同优化,以最大限度地提高对各种有害指令产生肯定性响应的概率。所发现的对抗性图像前缀和文本后缀统称为通用主密钥(UMK)。UMK集成到各种恶意查询中时,可以绕过VLMs的对齐防御,并导致生成不良内容,即越狱。实验结果表明,该通用攻击策略可以有效地越狱MiniGPT-4,成功率高达96%,突显了VLMs的脆弱性以及对新对齐策略的迫切需求。

🔬 方法详解

问题定义:现有针对大型视觉-语言模型(VLMs)的对抗攻击方法主要集中在图像模态,通过对图像进行细微的扰动来诱导模型产生错误或有害的输出。然而,这些方法往往忽略了文本模态的攻击潜力,即通过构造特定的文本提示来绕过模型的安全机制。因此,现有的评估方法可能无法全面反映VLMs的真实安全风险。

核心思路:本文的核心思路是联合利用图像和文本模态的漏洞,设计一种通用的对抗攻击方法,称为通用主密钥(UMK)。UMK由一个对抗性的图像前缀和一个对抗性的文本后缀组成,通过共同优化这两个部分,可以最大限度地提高模型生成有害内容的概率。这种方法的核心在于,图像前缀负责引入毒性语义,而文本后缀则负责引导模型产生肯定性的响应。

技术框架:该攻击方法主要包含两个阶段:1) 对抗性图像前缀的生成:从随机噪声开始,通过优化一个对抗性图像前缀,使其在没有文本输入的情况下能够生成多样化的有害响应。这个过程旨在使图像本身具有毒性语义。2) 对抗性文本后缀的生成:将对抗性图像前缀与一个对抗性文本后缀结合,共同优化这两个部分,以最大化模型对各种有害指令产生肯定性响应的概率。整个过程可以看作是一个双重优化问题,旨在找到一个能够有效绕过模型安全机制的通用主密钥。

关键创新:该方法最重要的创新点在于提出了一个联合攻击图像和文本模态的通用主密钥(UMK)的概念。与现有的单模态攻击方法相比,UMK能够更全面地挖掘VLMs的漏洞,并且具有更强的通用性和可迁移性。此外,该方法还提出了一种双重优化目标,能够有效地引导模型生成有害内容。

关键设计:在对抗性图像前缀的生成过程中,使用了梯度下降算法来优化图像像素值,目标是最大化模型生成有害响应的概率。在对抗性文本后缀的生成过程中,使用了类似的优化方法,同时考虑了文本的流畅性和语义一致性。损失函数的设计至关重要,它需要能够同时衡量图像和文本的毒性以及模型生成肯定性响应的概率。具体的参数设置和网络结构选择取决于目标VLMs的特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法提出的通用主密钥(UMK)能够有效越狱MiniGPT-4,成功率高达96%。这表明现有的VLM在对抗多模态攻击方面存在显著的脆弱性。与仅使用图像或文本攻击的方法相比,该方法能够更有效地绕过模型的安全机制,揭示了VLM对联合模态攻击的敏感性。

🎯 应用场景

该研究成果可应用于评估和提升大型视觉-语言模型的安全性。通过发现和利用模型漏洞,可以帮助研究人员开发更有效的防御机制,从而提高VLM在实际应用中的可靠性和安全性。此外,该研究还可以促进对多模态对抗攻击的理解,为开发更鲁棒的人工智能系统提供指导。

📄 摘要(原文)

Recent advancements in Large Vision-Language Models (VLMs) have underscored their superiority in various multimodal tasks. However, the adversarial robustness of VLMs has not been fully explored. Existing methods mainly assess robustness through unimodal adversarial attacks that perturb images, while assuming inherent resilience against text-based attacks. Different from existing attacks, in this work we propose a more comprehensive strategy that jointly attacks both text and image modalities to exploit a broader spectrum of vulnerability within VLMs. Specifically, we propose a dual optimization objective aimed at guiding the model to generate affirmative responses with high toxicity. Our attack method begins by optimizing an adversarial image prefix from random noise to generate diverse harmful responses in the absence of text input, thus imbuing the image with toxic semantics. Subsequently, an adversarial text suffix is integrated and co-optimized with the adversarial image prefix to maximize the probability of eliciting affirmative responses to various harmful instructions. The discovered adversarial image prefix and text suffix are collectively denoted as a Universal Master Key (UMK). When integrated into various malicious queries, UMK can circumvent the alignment defenses of VLMs and lead to the generation of objectionable content, known as jailbreaks. The experimental results demonstrate that our universal attack strategy can effectively jailbreak MiniGPT-4 with a 96% success rate, highlighting the vulnerability of VLMs and the urgent need for new alignment strategies.