Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

作者: Tiejin Chen, Kaishen Wang, Hua Wei

分类: cs.LG, cs.AI

发布日期: 2024-11-12

备注: Accepted to Neurips SafeGenAi Workshop 2024

💡 一句话要点

Zer0-Jack：一种面向黑盒多模态大语言模型的内存高效梯度越狱方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 越狱攻击 黑盒攻击 零阶优化 安全性评估

📋 核心要点

现有基于梯度的越狱方法依赖白盒访问，且内存消耗大，限制了其在实际场景中的应用。
Zer0-Jack利用零阶优化，无需白盒访问即可生成恶意图像输入，直接攻击黑盒MLLM。
实验表明，Zer0-Jack在黑盒设置下实现了高攻击成功率，甚至能攻击商业MLLM，如GPT-4o。

📝 摘要（中文）

越狱方法诱导多模态大语言模型（MLLMs）输出有害响应，引发了严重的安全问题。在这些方法中，基于梯度的方法因其在白盒设置（可以完全访问模型）中的高成功率而受到广泛研究。然而，这些方法存在明显的局限性：它们需要白盒访问，这并非总是可行，并且涉及高内存使用。为了解决无法进行白盒访问的情况，攻击者通常会求助于迁移攻击。在迁移攻击中，使用白盒模型生成的恶意输入被应用于黑盒模型，但这通常会导致攻击性能下降。为了克服这些挑战，我们提出Zer0-Jack，一种通过利用零阶优化来绕过白盒访问需求的方法。我们提出patch坐标下降来有效地生成恶意图像输入，以直接攻击黑盒MLLM，从而进一步显著降低内存使用。通过广泛的实验，Zer0-Jack在各种模型上实现了高攻击成功率，超过了以前的基于迁移的方法，并且与现有的白盒越狱技术相当。值得注意的是，Zer0-Jack在黑盒设置下，使用有害行为多模态数据集在MiniGPT-4上实现了95%的攻击成功率，证明了其有效性。此外，我们表明Zer0-Jack可以直接攻击商业MLLM，例如GPT-4o。代码在补充材料中提供。

🔬 方法详解

问题定义：论文旨在解决黑盒多模态大语言模型（MLLMs）的越狱攻击问题。现有基于梯度的越狱方法主要依赖于白盒访问，即需要访问模型的内部参数和梯度信息，这在实际应用中往往不可行。此外，这些方法通常需要大量的内存来计算和存储梯度，限制了其在大规模模型上的应用。迁移攻击虽然可以用于黑盒场景，但攻击成功率通常较低。

核心思路：Zer0-Jack的核心思路是利用零阶优化来绕过对模型梯度的依赖。零阶优化只需要通过输入和输出的观察来优化目标函数，而不需要访问模型的内部梯度信息。通过精心设计的优化算法，Zer0-Jack可以直接在黑盒MLLM上生成有效的恶意输入，从而实现越狱攻击。

技术框架：Zer0-Jack的整体框架主要包括以下几个步骤：1) 初始化恶意图像输入；2) 使用patch坐标下降算法，迭代地更新图像的各个patch，以最大化攻击目标函数；3) 将生成的恶意图像输入输入到黑盒MLLM中，观察其输出是否为有害响应；4) 根据输出结果调整优化策略，继续迭代优化，直到达到攻击目标或达到最大迭代次数。

关键创新：Zer0-Jack的关键创新在于使用patch坐标下降算法来高效地生成恶意图像输入。与传统的零阶优化方法相比，patch坐标下降算法通过每次只更新图像的一个小区域（patch），显著降低了每次迭代的计算量和内存消耗。此外，该方法还能够更好地探索图像的局部特征，从而生成更有效的恶意输入。

关键设计：Zer0-Jack的关键设计包括：1) 使用合适的patch大小，以平衡计算效率和攻击效果；2) 设计有效的攻击目标函数，以引导优化过程生成有害响应；3) 采用自适应的学习率调整策略，以提高优化算法的收敛速度和稳定性；4) 针对不同的MLLM模型，调整优化参数，以获得最佳的攻击效果。

🖼️ 关键图片

📊 实验亮点

Zer0-Jack在黑盒设置下，对MiniGPT-4模型实现了95%的攻击成功率，显著优于传统的迁移攻击方法。此外，该方法还成功地攻击了商业MLLM，如GPT-4o，证明了其在实际场景中的有效性。Zer0-Jack在实现高攻击成功率的同时，还显著降低了内存使用，使其能够在大规模模型上应用。

🎯 应用场景

Zer0-Jack的研究成果可应用于评估和提升多模态大语言模型的安全性。通过该方法，可以发现模型潜在的漏洞和弱点，并针对性地进行防御和加固。此外，该方法还可以用于开发更安全的MLLM应用，例如内容审核、智能客服等，以防止模型被恶意利用。

📄 摘要（原文）

Jailbreaking methods, which induce Multi-modal Large Language Models (MLLMs) to output harmful responses, raise significant safety concerns. Among these methods, gradient-based approaches, which use gradients to generate malicious prompts, have been widely studied due to their high success rates in white-box settings, where full access to the model is available. However, these methods have notable limitations: they require white-box access, which is not always feasible, and involve high memory usage. To address scenarios where white-box access is unavailable, attackers often resort to transfer attacks. In transfer attacks, malicious inputs generated using white-box models are applied to black-box models, but this typically results in reduced attack performance. To overcome these challenges, we propose Zer0-Jack, a method that bypasses the need for white-box access by leveraging zeroth-order optimization. We propose patch coordinate descent to efficiently generate malicious image inputs to directly attack black-box MLLMs, which significantly reduces memory usage further. Through extensive experiments, Zer0-Jack achieves a high attack success rate across various models, surpassing previous transfer-based methods and performing comparably with existing white-box jailbreak techniques. Notably, Zer0-Jack achieves a 95\% attack success rate on MiniGPT-4 with the Harmful Behaviors Multi-modal Dataset on a black-box setting, demonstrating its effectiveness. Additionally, we show that Zer0-Jack can directly attack commercial MLLMs such as GPT-4o. Codes are provided in the supplement.

Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理