Gradient-based Jailbreak Images for Multimodal Fusion Models

📄 arXiv: 2410.03489v2 📥 PDF

作者: Javier Rando, Hannah Korevaar, Erik Brinkman, Ivan Evtimov, Florian Tramèr

分类: cs.CR, cs.AI

发布日期: 2024-10-04 (更新: 2024-10-23)


💡 一句话要点

提出基于梯度优化的图像Jailbreak攻击,突破多模态融合模型的防御。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合模型 Jailbreak攻击 对抗性图像 梯度优化 Tokenizer Shortcut 安全性评估 Chameleon模型

📋 核心要点

  1. 多模态融合模型面临新型攻击,图像输入有望通过连续优化实现更有效的Jailbreak,但现有模型tokenize方式阻碍了梯度优化。
  2. 提出Tokenizer Shortcut,用连续函数近似Tokenization过程,使得图像Jailbreak攻击可以通过梯度优化实现。
  3. 实验表明,该方法在Chameleon模型上有效,Jailbreak成功率达72.5%,且优于文本Jailbreak,并能迁移文本防御策略。

📝 摘要(中文)

本文提出了一种针对多模态融合模型的基于梯度的图像Jailbreak攻击方法。与文本输入需要离散优化不同,图像输入原则上可以通过连续优化实现更有效的Jailbreak攻击。然而,现有的多模态融合模型使用不可微函数对所有输入模态进行tokenize,阻碍了直接的攻击。本文引入了“tokenizer shortcut”的概念,用连续函数近似tokenization,从而实现连续优化。我们使用tokenizer shortcut创建了第一个针对Chameleon模型的端到端梯度图像攻击,该攻击能够以72.5%的成功率诱导模型生成有害信息。实验表明,Jailbreak图像攻击优于使用相同目标函数优化的文本Jailbreak攻击,并且优化50倍的输入token所需的计算量降低了3倍。最后,我们发现仅在文本攻击上训练的表示工程防御(如Circuit Breakers)可以有效地迁移到对抗性图像输入。

🔬 方法详解

问题定义:多模态融合模型将图像和文本信息融合,但现有的模型通常使用非可微的tokenization方法处理图像输入,这使得传统的基于梯度的对抗攻击方法难以直接应用。现有的文本Jailbreak攻击方法通常需要离散优化,效率较低,且难以处理高维的图像输入。因此,如何针对多模态融合模型设计有效的图像Jailbreak攻击是一个关键问题。

核心思路:本文的核心思路是引入“Tokenizer Shortcut”的概念,即使用一个可微的函数来近似不可微的tokenization过程。通过这种方式,可以将图像输入到模型输出的整个过程转化为一个可微的函数,从而可以使用基于梯度的优化方法来生成对抗性图像。这种方法避免了离散优化,提高了攻击效率,并且能够有效地处理高维的图像输入。

技术框架:该攻击框架主要包含以下几个步骤:1) 初始化一个随机图像;2) 使用Tokenizer Shortcut近似图像的tokenization过程;3) 将tokenized图像输入到多模态融合模型中;4) 计算模型输出与目标输出之间的损失函数;5) 使用梯度下降法优化图像,使其能够诱导模型生成有害信息。整个过程是端到端可微的,可以使用标准的深度学习优化方法进行训练。

关键创新:本文最重要的技术创新点在于提出了Tokenizer Shortcut的概念,并将其应用于图像Jailbreak攻击。Tokenizer Shortcut通过可微函数近似tokenization过程,使得基于梯度的优化方法能够应用于多模态融合模型的图像输入。这与传统的对抗攻击方法不同,后者通常需要针对特定的模型结构和tokenization方法进行定制。

关键设计:Tokenizer Shortcut的具体实现方式未知,论文中可能使用了某种可微的图像编码器或近似函数来模拟tokenization过程。损失函数的设计目标是使得模型输出与目标输出之间的差异最大化,从而诱导模型生成有害信息。具体的损失函数形式可能包括交叉熵损失、余弦相似度损失等。此外,梯度下降的优化器、学习率等参数也需要进行仔细调整,以获得最佳的攻击效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的图像Jailbreak攻击方法在Chameleon模型上取得了显著的效果,Jailbreak成功率高达72.5%。与使用相同目标函数优化的文本Jailbreak攻击相比,图像Jailbreak攻击具有更高的效率,并且优化50倍的输入token所需的计算量降低了3倍。此外,实验还发现,仅在文本攻击上训练的表示工程防御(如Circuit Breakers)可以有效地迁移到对抗性图像输入,这表明文本和图像攻击之间存在一定的关联性。

🎯 应用场景

该研究成果可应用于评估和提升多模态融合模型的安全性。通过生成对抗性图像,可以发现模型在处理恶意输入时的脆弱性,从而为开发更鲁棒的模型提供指导。此外,该方法还可以用于研究不同防御策略的有效性,例如对抗训练、输入过滤等。该研究对于构建安全可靠的多模态人工智能系统具有重要意义。

📄 摘要(原文)

Augmenting language models with image inputs may enable more effective jailbreak attacks through continuous optimization, unlike text inputs that require discrete optimization. However, new multimodal fusion models tokenize all input modalities using non-differentiable functions, which hinders straightforward attacks. In this work, we introduce the notion of a tokenizer shortcut that approximates tokenization with a continuous function and enables continuous optimization. We use tokenizer shortcuts to create the first end-to-end gradient image attacks against multimodal fusion models. We evaluate our attacks on Chameleon models and obtain jailbreak images that elicit harmful information for 72.5% of prompts. Jailbreak images outperform text jailbreaks optimized with the same objective and require 3x lower compute budget to optimize 50x more input tokens. Finally, we find that representation engineering defenses, like Circuit Breakers, trained only on text attacks can effectively transfer to adversarial image inputs.