Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models

📄 arXiv: 2509.21360v1 📥 PDF

作者: Xingkai Peng, Jun Jiang, Meng Tong, Shuai Li, Weiming Zhang, Nenghai Yu, Kejiang Chen

分类: cs.CV, cs.AI

发布日期: 2025-09-21


💡 一句话要点

提出多模态提示解耦攻击MPDA,提升文本到图像模型越狱攻击的成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像模型 越狱攻击 多模态攻击 提示解耦 对抗性提示

📋 核心要点

  1. 现有文本到图像模型的越狱攻击主要集中在文本提示的操纵,忽略了图像输入中潜在的安全漏洞。
  2. MPDA的核心思想是利用图像模态解耦不安全提示,通过大型语言模型将有害语义转化为对抗性提示,绕过安全过滤器。
  3. 该方法通过视觉语言模型生成图像标题,确保生成图像与原始不安全提示的语义一致性,提升攻击效果。

📝 摘要(中文)

文本到图像(T2I)模型已被广泛应用于生成各种领域的高保真图像。然而,这些模型也可能被滥用,通过越狱攻击产生不适合工作场所(NSFW)的内容。现有的越狱方法主要操纵文本提示,而图像输入中潜在的漏洞在很大程度上未被探索。此外,基于文本的方法在绕过模型的安全过滤器方面面临挑战。为了应对这些限制,我们提出了多模态提示解耦攻击(MPDA),它利用图像模态来分离原始不安全提示中的有害语义成分。MPDA遵循三个核心步骤:首先,大型语言模型(LLM)将不安全提示解耦为伪安全提示和有害提示。前者是看似无害的子提示,可以绕过过滤器,而后者是具有不安全语义的子提示,会触发过滤器。随后,LLM将有害提示重写为自然的对抗性提示,以绕过安全过滤器,从而引导T2I模型将基础图像修改为NSFW输出。最后,为了确保生成的NSFW图像与原始不安全提示之间的语义一致性,视觉语言模型生成图像标题,为指导LLM迭代重写和完善生成的内容提供了一条新途径。

🔬 方法详解

问题定义:当前文本到图像模型的越狱攻击主要依赖于对文本提示的精巧构造,但模型对图像输入的安全性考虑不足。此外,现有的文本攻击方法难以有效绕过模型内置的安全过滤器,导致攻击成功率较低。因此,需要一种新的攻击方法,能够利用图像模态的优势,更有效地生成NSFW内容。

核心思路:MPDA的核心思路是将原始的不安全提示分解为两个部分:一部分是看似无害的“伪安全”提示,另一部分是包含敏感信息的“有害”提示。然后,利用大型语言模型(LLM)将“有害”提示改写成更自然的对抗性提示,从而绕过安全过滤器。同时,利用图像模态来引导生成过程,确保最终生成的图像与原始的不安全提示在语义上保持一致。

技术框架:MPDA主要包含三个阶段:1) 提示解耦:使用LLM将不安全提示分解为伪安全提示和有害提示。2) 对抗性提示生成:使用LLM将有害提示重写为自然的对抗性提示,以绕过安全过滤器。3) 图像生成与语义对齐:利用T2I模型生成图像,并使用视觉语言模型生成图像的标题,利用标题指导LLM迭代优化对抗性提示,确保语义一致性。

关键创新:MPDA的关键创新在于引入了多模态的攻击方式,将图像模态与文本模态相结合,突破了传统文本攻击的局限性。通过提示解耦和对抗性提示生成,有效地绕过了安全过滤器,提高了攻击的成功率。同时,利用视觉语言模型进行语义对齐,保证了生成图像与原始提示的语义一致性。

关键设计:在提示解耦阶段,需要选择合适的LLM,并设计有效的提示工程,以确保能够准确地将不安全提示分解为伪安全提示和有害提示。在对抗性提示生成阶段,需要设计合适的损失函数,以引导LLM生成既能绕过安全过滤器,又能引导T2I模型生成目标图像的对抗性提示。在语义对齐阶段,需要选择合适的视觉语言模型,并设计合适的迭代优化策略,以确保生成图像与原始提示的语义一致性。具体的参数设置和网络结构选择取决于具体的LLM和T2I模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MPDA通过多模态提示解耦,有效绕过了文本到图像模型的安全过滤器,显著提高了越狱攻击的成功率。具体性能数据和对比基线信息在论文中未明确给出,但该方法为提升攻击效果提供了一种新的思路。

🎯 应用场景

该研究成果可用于评估和提升文本到图像模型的安全性,帮助开发者发现和修复模型中存在的安全漏洞。同时,该研究也提醒人们关注多模态攻击的潜在威胁,并促进更安全、更可靠的AI系统的开发。此外,该方法可能被用于生成对抗样本,以提高图像分类器等模型的鲁棒性。

📄 摘要(原文)

Text-to-image (T2I) models have been widely applied in generating high-fidelity images across various domains. However, these models may also be abused to produce Not-Safe-for-Work (NSFW) content via jailbreak attacks. Existing jailbreak methods primarily manipulate the textual prompt, leaving potential vulnerabilities in image-based inputs largely unexplored. Moreover, text-based methods face challenges in bypassing the model's safety filters. In response to these limitations, we propose the Multimodal Prompt Decoupling Attack (MPDA), which utilizes image modality to separate the harmful semantic components of the original unsafe prompt. MPDA follows three core steps: firstly, a large language model (LLM) decouples unsafe prompts into pseudo-safe prompts and harmful prompts. The former are seemingly harmless sub-prompts that can bypass filters, while the latter are sub-prompts with unsafe semantics that trigger filters. Subsequently, the LLM rewrites the harmful prompts into natural adversarial prompts to bypass safety filters, which guide the T2I model to modify the base image into an NSFW output. Finally, to ensure semantic consistency between the generated NSFW images and the original unsafe prompts, the visual language model generates image captions, providing a new pathway to guide the LLM in iterative rewriting and refining the generated content.