Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities

📄 arXiv: 2506.00548v1 📥 PDF

作者: Jiahui Geng, Thy Thy Tran, Preslav Nakov, Iryna Gurevych

分类: cs.CR, cs.CL, cs.LG

发布日期: 2025-05-31


💡 一句话要点

Con Instruction:通过非文本模态实现多模态大语言模型的通用越狱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 越狱攻击 对抗样本 非文本模态 安全评估

📋 核心要点

  1. 现有MLLM攻击依赖文本指令和对抗图像,缺乏对非文本模态指令的有效利用。
  2. Con Instruction通过优化对抗图像或音频,使其在嵌入空间与恶意指令对齐,实现对MLLM的越狱攻击。
  3. 实验表明,Con Instruction在多个MLLM上取得了显著的攻击成功率,并提出了新的攻击响应分类框架。

📝 摘要(中文)

现有的多模态语言模型(MLLM)攻击主要通过文本指令和对抗图像进行。本文提出了一种新方法Con Instruction,利用MLLM解释非文本指令的能力,特别是通过优化对抗图像或音频来实现越狱。Con Instruction在嵌入空间中优化对抗样本,使其与目标指令紧密对齐,揭示了MLLM复杂理解能力的潜在危害。该方法无需训练数据或文本指令预处理。非文本对抗样本能有效绕过MLLM安全机制,且与文本输入结合能显著提高攻击成功率。此外,本文提出了新的攻击响应分类(ARC)框架,评估模型响应的质量及其与恶意指令的相关性。实验结果表明,Con Instruction能有效绕过LLaVA-v1.5、InternVL、Qwen-VL和Qwen-Audio等多个视觉和音频语言模型的安全机制,在AdvBench和SafeBench上取得了最高的攻击成功率,在LLaVA-v1.5(13B)上分别达到81.3%和86.6%。最后,本文还探索了针对该攻击的防御措施,并揭示了现有技术之间的显著性能差距。代码已开源。

🔬 方法详解

问题定义:现有针对多模态大语言模型(MLLM)的攻击主要依赖于文本指令,并结合对抗图像。这种方法忽略了MLLM本身对非文本模态的理解能力,限制了攻击的有效性和通用性。现有的文本指令攻击也可能需要预处理或训练数据,增加了攻击的复杂性。

核心思路:Con Instruction的核心思路是利用MLLM对非文本模态(如图像和音频)的理解能力,直接通过对抗性的非文本输入来传递恶意指令。通过优化这些对抗样本,使其在嵌入空间中与目标恶意指令对齐,从而绕过模型的安全机制。这种方法无需文本指令,也不需要额外的训练数据或预处理。

技术框架:Con Instruction的整体框架包括以下几个主要阶段:1) 目标指令选择:选择需要模型执行的恶意指令。2) 对抗样本生成:通过优化算法生成对抗性的图像或音频样本,使其在嵌入空间中与目标指令对齐。3) MLLM输入与响应:将生成的对抗样本输入到MLLM中,并观察模型的响应。4) 攻击评估:使用Attack Response Categorization (ARC)框架评估模型响应的质量和与恶意指令的相关性。

关键创新:Con Instruction的关键创新在于:1) 非文本指令攻击:首次提出利用非文本模态(图像和音频)直接进行MLLM的越狱攻击,拓展了攻击的维度。2) 嵌入空间对齐:通过在嵌入空间中优化对抗样本,使其与目标指令对齐,提高了攻击的有效性。3) 无训练数据/预处理:该方法无需训练数据或文本指令预处理,降低了攻击的复杂性。4) 攻击响应分类框架:提出了新的ARC框架,用于更全面地评估攻击效果。

关键设计:在对抗样本生成阶段,使用了梯度下降等优化算法,目标是最小化对抗样本的嵌入表示与目标指令的嵌入表示之间的距离。损失函数通常采用余弦相似度或L2距离。对抗样本的生成过程需要仔细调整学习率、迭代次数等参数,以保证攻击的有效性和隐蔽性。对于图像对抗样本,通常会限制扰动的幅度,以避免引入明显的视觉伪影。对于音频对抗样本,则需要考虑音频的感知质量。

🖼️ 关键图片

img_0

📊 实验亮点

Con Instruction在LLaVA-v1.5、InternVL、Qwen-VL和Qwen-Audio等多个MLLM上进行了评估,并在AdvBench和SafeBench两个标准基准测试中取得了显著的攻击成功率。在LLaVA-v1.5(13B)上,攻击成功率分别达到了81.3%和86.6%,超过了现有方法。此外,该研究还对多种防御方法进行了评估,揭示了它们在应对Con Instruction攻击时的性能差距。

🎯 应用场景

该研究成果可应用于评估和提升多模态大语言模型的安全性,帮助开发者发现模型潜在的漏洞并采取相应的防御措施。此外,该研究也提醒人们关注MLLM对非文本模态的理解能力可能带来的安全风险,促进更安全、可靠的多模态人工智能系统的发展。未来的研究可以探索更鲁棒的防御方法,以及更复杂的非文本攻击策略。

📄 摘要(原文)

Existing attacks against multimodal language models (MLLMs) primarily communicate instructions through text accompanied by adversarial images. In contrast, we exploit the capabilities of MLLMs to interpret non-textual instructions, specifically, adversarial images or audio generated by our novel method, Con Instruction. We optimize these adversarial examples to align closely with target instructions in the embedding space, revealing the detrimental implications of MLLMs' sophisticated understanding. Unlike prior work, our method does not require training data or preprocessing of textual instructions. While these non-textual adversarial examples can effectively bypass MLLM safety mechanisms, their combination with various text inputs substantially amplifies attack success. We further introduce a new Attack Response Categorization (ARC) framework, which evaluates both the quality of the model's response and its relevance to the malicious instructions. Experimental results demonstrate that Con Instruction effectively bypasses safety mechanisms in multiple vision- and audio-language models, including LLaVA-v1.5, InternVL, Qwen-VL, and Qwen-Audio, evaluated on two standard benchmarks: AdvBench and SafeBench. Specifically, our method achieves the highest attack success rates, reaching 81.3% and 86.6% on LLaVA-v1.5 (13B). On the defense side, we explore various countermeasures against our attacks and uncover a substantial performance gap among existing techniques. Our implementation is made publicly available.