Multimodal Pragmatic Jailbreak on Text-to-image Models

📄 arXiv: 2409.19149v2 📥 PDF

作者: Tong Liu, Zhixin Lai, Jiawen Wang, Gengyuan Zhang, Shuo Chen, Philip Torr, Vera Demberg, Volker Tresp, Jindong Gu

分类: cs.CV, cs.AI, cs.CR, cs.LG

发布日期: 2024-09-27 (更新: 2025-06-10)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出多模态语用越狱方法,揭示并评估文本生成图像模型中的安全漏洞。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成图像 多模态安全 语用越狱 安全漏洞 扩散模型

📋 核心要点

  1. 现有的文本生成图像模型安全性存在漏洞,容易被恶意提示利用,生成不安全内容。
  2. 提出一种多模态语用越狱方法,通过结合图像和文本信息,绕过现有的安全过滤机制。
  3. 实验表明,包括闭源模型在内的多个主流T2I模型都容易受到攻击,且现有过滤方法效果不佳。

📝 摘要(中文)

扩散模型在图像质量和文本提示一致性方面取得了显著进展。与此同时,此类生成模型的安全性日益受到关注。本文提出了一种新型的越狱方法,该方法触发文本生成图像(T2I)模型生成带有视觉文本的图像,其中图像和文本虽然单独被认为是安全的,但组合起来会形成不安全的内容。为了系统地探索这种现象,我们提出了一个数据集,用于评估当前基于扩散的T2I模型在这种越狱下的表现。我们对九个具有代表性的T2I模型进行了基准测试,包括两个闭源商业模型。实验结果揭示了一种令人担忧的产生不安全内容的趋势:所有测试模型都受到这种类型的越狱的影响,不安全生成率从10%到70%不等,其中DALLE 3表现出几乎最高的不安全性。在实际场景中,通常采用各种过滤器(如关键词黑名单、定制提示过滤器和NSFW图像过滤器)来降低这些风险。我们评估了这些过滤器对我们的越狱的有效性,发现虽然这些过滤器可能对单模态检测有效,但它们无法对抗我们的越狱。我们还从文本渲染能力和训练数据的角度研究了这种越狱的根本原因。我们的工作为进一步开发更安全可靠的T2I模型奠定了基础。

🔬 方法详解

问题定义:论文旨在解决文本生成图像(T2I)模型中存在的安全漏洞问题。现有方法,如关键词过滤和NSFW图像检测,主要关注单模态的安全,无法有效防御图像和文本组合后产生的不安全内容。这种组合利用了模型的语用理解能力,使得模型在生成图像时,将文本信息融入图像中,从而绕过单模态的安全检测。

核心思路:核心思路是利用多模态的组合,构造一种“语用越狱”攻击。这种攻击不是直接生成不安全的内容,而是通过生成包含特定文本的图像,使得图像和文本结合后表达不安全或有害的信息。这种方法利用了模型对文本提示的忠实性,以及模型在图像中渲染文本的能力。

技术框架:该研究主要包含以下几个阶段:1)构建一个包含多种不安全场景的数据集,用于评估T2I模型的安全性。2)设计多模态语用越狱提示,这些提示旨在引导模型生成包含特定文本的图像。3)对多个T2I模型进行评估,测试它们在多模态语用越狱攻击下的表现。4)分析现有安全过滤机制的有效性,并探讨越狱攻击的根本原因。

关键创新:关键创新在于提出了多模态语用越狱的概念,并将其应用于T2I模型的安全评估。与传统的单模态安全评估方法不同,该方法关注图像和文本的组合,能够更全面地评估模型的安全性。此外,该研究还构建了一个专门用于评估多模态安全性的数据集。

关键设计:数据集的设计考虑了多种不安全场景,例如仇恨言论、暴力内容等。越狱提示的设计需要巧妙地结合图像和文本信息,使得模型在生成图像时,能够准确地渲染出目标文本,并且图像本身不包含明显的安全问题。研究中使用了多种评估指标,例如不安全内容生成率,来衡量模型的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有测试的T2I模型都容易受到多模态语用越狱攻击,不安全生成率从10%到70%不等,其中DALLE 3表现出几乎最高的不安全性。现有的关键词黑名单、定制提示过滤器和NSFW图像过滤器对这种攻击无效,表明需要开发更有效的多模态安全过滤机制。

🎯 应用场景

该研究成果可应用于提升文本生成图像模型的安全性,例如,可以用于开发更有效的多模态安全过滤机制,防止模型被用于生成恶意或有害内容。此外,该研究还可以促进对多模态模型安全性的更深入理解,为未来开发更安全可靠的人工智能系统提供指导。

📄 摘要(原文)

Diffusion models have recently achieved remarkable advancements in terms of image quality and fidelity to textual prompts. Concurrently, the safety of such generative models has become an area of growing concern. This work introduces a novel type of jailbreak, which triggers T2I models to generate the image with visual text, where the image and the text, although considered to be safe in isolation, combine to form unsafe content. To systematically explore this phenomenon, we propose a dataset to evaluate the current diffusion-based text-to-image (T2I) models under such jailbreak. We benchmark nine representative T2I models, including two closed-source commercial models. Experimental results reveal a concerning tendency to produce unsafe content: all tested models suffer from such type of jailbreak, with rates of unsafe generation ranging from around 10\% to 70\% where DALLE 3 demonstrates almost the highest unsafety. In real-world scenarios, various filters such as keyword blocklists, customized prompt filters, and NSFW image filters, are commonly employed to mitigate these risks. We evaluate the effectiveness of such filters against our jailbreak and found that, while these filters may be effective for single modality detection, they fail to work against our jailbreak. We also investigate the underlying reason for such jailbreaks, from the perspective of text rendering capability and training data. Our work provides a foundation for further development towards more secure and reliable T2I models. Project page at https://multimodalpragmatic.github.io/.