Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

📄 arXiv: 2501.04931v2 📥 PDF

作者: Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-01-09 (更新: 2025-06-27)

备注: ICCV2025


💡 一句话要点

提出SI-Attack,利用多模态大语言模型shuffle不一致性进行jailbreak攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 Jailbreak攻击 安全性 Shuffle不一致性 黑盒优化

📋 核心要点

  1. 现有jailbreak方法在商业MLLMs上攻击成功率低,存在安全风险。
  2. 利用MLLMs对洗牌后有害指令的理解能力和安全能力之间的不一致性,设计攻击。
  3. SI-Attack通过黑盒优化选择最有害的shuffle输入,显著提升攻击成功率。

📝 摘要(中文)

多模态大语言模型(MLLMs)在商业应用中表现出色,但仍存在安全漏洞。Jailbreak攻击旨在绕过安全机制,发现MLLMs的潜在风险。现有的MLLMs jailbreak方法通常通过复杂的优化或精心设计的图像和文本提示来绕过模型的安全机制,但在商业闭源MLLMs上的攻击成功率较低。与以往研究不同,本文发现MLLMs对洗牌后的有害指令的理解能力和安全能力之间存在shuffle不一致性。即MLLMs可以很好地理解洗牌后的有害文本-图像指令,但shuffle后的有害指令可以很容易地绕过其安全机制,导致有害响应。因此,本文创新性地提出了一种名为SI-Attack的文本-图像jailbreak攻击。具体来说,为了充分利用shuffle不一致性并克服shuffle随机性,本文采用基于查询的黑盒优化方法,根据toxic judge模型的反馈选择最有害的shuffle输入。实验表明,SI-Attack可以提高在三个基准测试上的攻击性能,尤其是在GPT-4o或Claude-3.5-Sonnet等商业MLLMs上的攻击成功率。

🔬 方法详解

问题定义:现有的多模态大语言模型jailbreak攻击方法,如基于优化的方法或精心设计的prompt,在商业闭源模型上的攻击成功率较低。这些方法难以有效绕过商业模型复杂的安全机制,存在安全隐患。

核心思路:论文的核心思路是发现并利用多模态大语言模型在处理洗牌(shuffle)后的有害指令时,理解能力和安全能力之间的不一致性。模型能够理解洗牌后的指令含义,但其安全机制却更容易被绕过。

技术框架:SI-Attack的整体框架包含以下几个主要步骤:1) 对输入的文本-图像指令进行洗牌操作,生成多个洗牌后的版本;2) 使用基于查询的黑盒优化方法,根据toxic judge模型的反馈,从多个洗牌版本中选择最有可能导致有害响应的版本;3) 将选定的洗牌版本输入到目标MLLM,观察其响应。

关键创新:关键创新在于发现了MLLMs的shuffle不一致性,并将其应用于jailbreak攻击。与以往依赖复杂优化或prompt设计的方法不同,SI-Attack利用了模型自身固有的弱点,从而更有效地绕过安全机制。

关键设计:SI-Attack的关键设计包括:1) 洗牌策略:如何对文本指令进行洗牌,以最大程度地利用shuffle不一致性;2) 黑盒优化方法:选择合适的优化算法,以高效地搜索最有害的洗牌版本;3) Toxic judge模型:选择或训练一个可靠的toxic judge模型,用于评估MLLM的响应是否有害。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SI-Attack在多个基准测试中显著提高了jailbreak攻击的成功率。尤其是在商业MLLMs(如GPT-4o和Claude-3.5-Sonnet)上,SI-Attack的攻击成功率得到了明显提升,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于多模态大语言模型的安全性评估和风险识别,帮助开发者发现和修复模型中的安全漏洞,提升模型的鲁棒性和可靠性。同时,该研究也为构建更安全的AI系统提供了新的思路和方法。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved impressive performance and have been put into practical use in commercial applications, but they still have potential safety mechanism vulnerabilities. Jailbreak attacks are red teaming methods that aim to bypass safety mechanisms and discover MLLMs' potential risks. Existing MLLMs' jailbreak methods often bypass the model's safety mechanism through complex optimization methods or carefully designed image and text prompts. Despite achieving some progress, they have a low attack success rate on commercial closed-source MLLMs. Unlike previous research, we empirically find that there exists a Shuffle Inconsistency between MLLMs' comprehension ability and safety ability for the shuffled harmful instruction. That is, from the perspective of comprehension ability, MLLMs can understand the shuffled harmful text-image instructions well. However, they can be easily bypassed by the shuffled harmful instructions from the perspective of safety ability, leading to harmful responses. Then we innovatively propose a text-image jailbreak attack named SI-Attack. Specifically, to fully utilize the Shuffle Inconsistency and overcome the shuffle randomness, we apply a query-based black-box optimization method to select the most harmful shuffled inputs based on the feedback of the toxic judge model. A series of experiments show that SI-Attack can improve the attack's performance on three benchmarks. In particular, SI-Attack can obviously improve the attack success rate for commercial MLLMs such as GPT-4o or Claude-3.5-Sonnet.