Jailbreaking Safeguarded Text-to-Image Models via Large Language Models

📄 arXiv: 2503.01839v2 📥 PDF

作者: Zhengyuan Jiang, Yuepeng Hu, Yuchen Yang, Yinzhi Cao, Neil Zhenqiang Gong

分类: cs.CR, cs.AI, cs.CL, cs.CV

发布日期: 2025-03-03 (更新: 2026-01-07)

备注: Accepted by EACL 2026 Findings


💡 一句话要点

提出AttackLLM,利用微调的大语言模型破解文本到图像模型的安全防护

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像模型 安全防护 对抗性攻击 大型语言模型 微调 安全漏洞 无盒攻击

📋 核心要点

  1. 文本到图像模型存在被恶意利用生成有害内容的安全风险,现有安全防护措施容易被对抗性提示词绕过。
  2. 论文提出AttackLLM,通过微调大语言模型,高效生成对抗性提示词,绕过文本到图像模型的安全防护。
  3. 实验表明,AttackLLM在多个数据集和安全防护设置下,均能有效破解安全机制,性能优于现有无盒攻击。

📝 摘要(中文)

文本到图像模型在接收到不安全提示词时,可能会生成有害内容,例如色情图像。为了解决这个问题,通常会在文本到图像模型上添加安全过滤器,或者对模型本身进行对齐以减少有害输出。然而,当攻击者策略性地设计对抗性提示词来绕过这些安全防护时,这些防御仍然很脆弱。本文提出了一种名为AttackLLM的方法,该方法使用微调的大语言模型来破解具有安全防护的文本到图像模型。与其他需要重复查询目标模型的基于查询的破解攻击不同,我们的攻击在微调AttackLLM后能够高效地生成对抗性提示词。我们在三个不安全提示词数据集上,针对五个安全防护进行了评估。结果表明,我们的方法能够有效地绕过安全防护,优于现有的无盒攻击,并且还能促进其他基于查询的攻击。

🔬 方法详解

问题定义:本文旨在解决文本到图像模型中存在的安全漏洞问题,即模型在面对精心设计的对抗性提示词时,其安全防护机制容易被绕过,从而生成有害内容。现有方法,特别是无盒攻击,在生成对抗性提示词时效率较低,需要多次查询目标模型才能找到有效的攻击prompt。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,通过微调LLM使其专门用于生成能够绕过安全防护的对抗性提示词。这种方法旨在提高对抗性提示词的生成效率,减少对目标模型的查询次数。

技术框架:AttackLLM的整体框架包括以下几个阶段:1) 数据收集:收集包含不安全内容的提示词数据集。2) LLM微调:使用收集的数据集对LLM进行微调,使其学会生成对抗性提示词。3) 对抗性提示词生成:使用微调后的LLM生成对抗性提示词。4) 评估:将生成的对抗性提示词输入到受保护的文本到图像模型中,评估其绕过安全防护的能力。

关键创新:最重要的技术创新点在于利用微调的LLM直接生成对抗性提示词,而不是像传统的基于查询的攻击那样,通过多次迭代和查询来优化提示词。这种方法显著提高了攻击效率,并且不需要访问目标模型的内部信息。

关键设计:论文中关键的设计包括:1) LLM的选择:选择合适的LLM作为基础模型,例如,具有较强文本生成能力的模型。2) 微调数据集的构建:构建高质量的微调数据集,包含多样化的不安全提示词。3) 微调策略:采用合适的微调策略,例如,使用特定的损失函数来鼓励LLM生成能够绕过安全防护的提示词。4) 评估指标:使用合适的评估指标来衡量攻击的成功率,例如,生成有害内容的比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AttackLLM在绕过文本到图像模型的安全防护方面表现出色,优于现有的无盒攻击方法。具体来说,AttackLLM在多个数据集上实现了更高的攻击成功率,并且能够有效地绕过各种类型的安全过滤器。此外,AttackLLM还可以作为其他基于查询的攻击的辅助工具,进一步提高攻击效果。

🎯 应用场景

该研究成果可应用于评估和提升文本到图像模型的安全性。通过使用AttackLLM生成的对抗性提示词,可以有效地测试模型的安全防护能力,发现潜在的安全漏洞。此外,该研究还可以促进开发更强大的安全防护机制,例如,通过对抗训练来提高模型对对抗性提示词的鲁棒性。该研究对于构建更安全、可靠的AI系统具有重要意义。

📄 摘要(原文)

Text-to-Image models may generate harmful content, such as pornographic images, particularly when unsafe prompts are submitted. To address this issue, safety filters are often added on top of text-to-image models, or the models themselves are aligned to reduce harmful outputs. However, these defenses remain vulnerable when an attacker strategically designs adversarial prompts to bypass these safety guardrails. In this work, we propose \alg, a method to jailbreak text-to-image models with safety guardrails using a fine-tuned large language model. Unlike other query-based jailbreak attacks that require repeated queries to the target model, our attack generates adversarial prompts efficiently after fine-tuning our AttackLLM. We evaluate our method on three datasets of unsafe prompts and against five safety guardrails. Our results demonstrate that our approach effectively bypasses safety guardrails, outperforms existing no-box attacks, and also facilitates other query-based attacks.