Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
作者: Tiejin Chen, Kaishen Wang, Hua Wei
分类: cs.LG, cs.AI
发布日期: 2024-11-12
备注: Accepted to Neurips SafeGenAi Workshop 2024
💡 一句话要点
Zer0-Jack:一种面向黑盒多模态大语言模型的内存高效梯度越狱方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 越狱攻击 黑盒攻击 零阶优化 安全性评估
📋 核心要点
- 现有基于梯度的越狱方法依赖白盒访问,且内存消耗大,限制了其在实际场景中的应用。
- Zer0-Jack利用零阶优化,无需白盒访问即可生成恶意图像输入,直接攻击黑盒MLLM。
- 实验表明,Zer0-Jack在黑盒设置下实现了高攻击成功率,甚至能攻击商业MLLM,如GPT-4o。
📝 摘要(中文)
越狱方法诱导多模态大语言模型(MLLMs)输出有害响应,引发了严重的安全问题。在这些方法中,基于梯度的方法因其在白盒设置(可以完全访问模型)中的高成功率而受到广泛研究。然而,这些方法存在明显的局限性:它们需要白盒访问,这并非总是可行,并且涉及高内存使用。为了解决无法进行白盒访问的情况,攻击者通常会求助于迁移攻击。在迁移攻击中,使用白盒模型生成的恶意输入被应用于黑盒模型,但这通常会导致攻击性能下降。为了克服这些挑战,我们提出Zer0-Jack,一种通过利用零阶优化来绕过白盒访问需求的方法。我们提出patch坐标下降来有效地生成恶意图像输入,以直接攻击黑盒MLLM,从而进一步显著降低内存使用。通过广泛的实验,Zer0-Jack在各种模型上实现了高攻击成功率,超过了以前的基于迁移的方法,并且与现有的白盒越狱技术相当。值得注意的是,Zer0-Jack在黑盒设置下,使用有害行为多模态数据集在MiniGPT-4上实现了95%的攻击成功率,证明了其有效性。此外,我们表明Zer0-Jack可以直接攻击商业MLLM,例如GPT-4o。代码在补充材料中提供。
🔬 方法详解
问题定义:论文旨在解决黑盒多模态大语言模型(MLLMs)的越狱攻击问题。现有基于梯度的越狱方法主要依赖于白盒访问,即需要访问模型的内部参数和梯度信息,这在实际应用中往往不可行。此外,这些方法通常需要大量的内存来计算和存储梯度,限制了其在大规模模型上的应用。迁移攻击虽然可以用于黑盒场景,但攻击成功率通常较低。
核心思路:Zer0-Jack的核心思路是利用零阶优化来绕过对模型梯度的依赖。零阶优化只需要通过输入和输出的观察来优化目标函数,而不需要访问模型的内部梯度信息。通过精心设计的优化算法,Zer0-Jack可以直接在黑盒MLLM上生成有效的恶意输入,从而实现越狱攻击。
技术框架:Zer0-Jack的整体框架主要包括以下几个步骤:1) 初始化恶意图像输入;2) 使用patch坐标下降算法,迭代地更新图像的各个patch,以最大化攻击目标函数;3) 将生成的恶意图像输入输入到黑盒MLLM中,观察其输出是否为有害响应;4) 根据输出结果调整优化策略,继续迭代优化,直到达到攻击目标或达到最大迭代次数。
关键创新:Zer0-Jack的关键创新在于使用patch坐标下降算法来高效地生成恶意图像输入。与传统的零阶优化方法相比,patch坐标下降算法通过每次只更新图像的一个小区域(patch),显著降低了每次迭代的计算量和内存消耗。此外,该方法还能够更好地探索图像的局部特征,从而生成更有效的恶意输入。
关键设计:Zer0-Jack的关键设计包括:1) 使用合适的patch大小,以平衡计算效率和攻击效果;2) 设计有效的攻击目标函数,以引导优化过程生成有害响应;3) 采用自适应的学习率调整策略,以提高优化算法的收敛速度和稳定性;4) 针对不同的MLLM模型,调整优化参数,以获得最佳的攻击效果。
🖼️ 关键图片
📊 实验亮点
Zer0-Jack在黑盒设置下,对MiniGPT-4模型实现了95%的攻击成功率,显著优于传统的迁移攻击方法。此外,该方法还成功地攻击了商业MLLM,如GPT-4o,证明了其在实际场景中的有效性。Zer0-Jack在实现高攻击成功率的同时,还显著降低了内存使用,使其能够在大规模模型上应用。
🎯 应用场景
Zer0-Jack的研究成果可应用于评估和提升多模态大语言模型的安全性。通过该方法,可以发现模型潜在的漏洞和弱点,并针对性地进行防御和加固。此外,该方法还可以用于开发更安全的MLLM应用,例如内容审核、智能客服等,以防止模型被恶意利用。
📄 摘要(原文)
Jailbreaking methods, which induce Multi-modal Large Language Models (MLLMs) to output harmful responses, raise significant safety concerns. Among these methods, gradient-based approaches, which use gradients to generate malicious prompts, have been widely studied due to their high success rates in white-box settings, where full access to the model is available. However, these methods have notable limitations: they require white-box access, which is not always feasible, and involve high memory usage. To address scenarios where white-box access is unavailable, attackers often resort to transfer attacks. In transfer attacks, malicious inputs generated using white-box models are applied to black-box models, but this typically results in reduced attack performance. To overcome these challenges, we propose Zer0-Jack, a method that bypasses the need for white-box access by leveraging zeroth-order optimization. We propose patch coordinate descent to efficiently generate malicious image inputs to directly attack black-box MLLMs, which significantly reduces memory usage further. Through extensive experiments, Zer0-Jack achieves a high attack success rate across various models, surpassing previous transfer-based methods and performing comparably with existing white-box jailbreak techniques. Notably, Zer0-Jack achieves a 95\% attack success rate on MiniGPT-4 with the Harmful Behaviors Multi-modal Dataset on a black-box setting, demonstrating its effectiveness. Additionally, we show that Zer0-Jack can directly attack commercial MLLMs such as GPT-4o. Codes are provided in the supplement.