AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

📄 arXiv: 2510.24034v1 📥 PDF

作者: Yufan Liu, Wanqian Zhang, Huashan Chen, Lin Wang, Xiaojun Jia, Zheng Lin, Weiping Wang

分类: cs.CV

发布日期: 2025-10-28

备注: Accepted by ICCV 2025


💡 一句话要点

提出AutoPrompt,利用LLM自动生成对抗性提示,实现对文本到图像模型的黑盒红队测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗性提示 文本到图像模型 红队测试 大型语言模型 黑盒攻击

📋 核心要点

  1. 文本到图像模型易受对抗性提示攻击,现有红队测试方法通常需要白盒访问,效率低,且易生成无意义提示。
  2. AutoPrompt利用LLM自动生成人类可读的对抗性后缀,通过交替优化和微调,提升对抗性提示的质量和隐蔽性。
  3. 实验表明,AutoPrompt生成的提示具有出色的红队测试性能和零样本迁移能力,能有效攻击商业API。

📝 摘要(中文)

本文提出AutoPrompT (APT),一个黑盒框架,利用大型语言模型(LLM)自动为良性提示生成人类可读的对抗性后缀,从而对文本到图像(T2I)模型进行红队测试。该框架首先引入对抗性后缀优化和LLM微调之间的交替优化-微调流程,并利用优化后的后缀对LLM进行微调。此外,在优化阶段集成了双重规避策略,以绕过基于困惑度的过滤器和黑名单词过滤器:(1) 通过辅助LLM困惑度评分约束LLM生成人类可读的提示,这与先前token级别的乱码形成鲜明对比;(2) 还引入了禁用token惩罚,以抑制黑名单中禁用token的显式生成。大量实验表明,我们的人类可读、抗过滤的对抗性提示具有出色的红队测试性能,以及卓越的零样本可迁移性,能够即时适应未见过的提示,并暴露出商业API(例如Leonardo.Ai)中的关键漏洞。

🔬 方法详解

问题定义:文本到图像(T2I)模型容易受到对抗性提示的攻击,这些提示可以恶意生成不安全或不期望的图像。现有的红队测试方法主要存在以下痛点:一是通常需要白盒访问T2I模型,这在实际应用中往往不可行;二是依赖于低效的逐提示优化,计算成本高昂;三是容易生成语义上无意义的提示,容易被过滤器屏蔽。

核心思路:AutoPrompt的核心思路是利用大型语言模型(LLM)的生成能力,自动为良性提示生成人类可读的对抗性后缀。通过优化这些后缀,使得T2I模型生成不安全或不期望的图像,从而暴露模型的安全漏洞。这样设计的目的是在黑盒条件下,高效地发现T2I模型的潜在风险。

技术框架:AutoPrompt框架主要包含两个阶段:对抗性后缀优化和LLM微调。首先,使用优化算法(例如梯度下降)搜索能够使T2I模型生成对抗性图像的后缀。然后,利用优化后的后缀对LLM进行微调,使得LLM能够更好地生成类似的对抗性提示。这两个阶段交替进行,以提高对抗性提示的质量和隐蔽性。此外,框架还集成了双重规避策略,以绕过基于困惑度的过滤器和黑名单词过滤器。

关键创新:AutoPrompt的关键创新在于:1) 利用LLM生成人类可读的对抗性提示,避免了生成无意义的乱码提示;2) 提出了交替优化-微调流程,提高了对抗性提示的生成效率和质量;3) 集成了双重规避策略,增强了对抗性提示的抗过滤能力。与现有方法相比,AutoPrompt能够在黑盒条件下,更高效、更隐蔽地发现T2I模型的安全漏洞。

关键设计:在优化阶段,AutoPrompt使用梯度下降算法来搜索对抗性后缀。为了保证生成提示的可读性,引入了辅助LLM困惑度评分,约束LLM生成人类可读的提示。为了避免生成黑名单中的词语,引入了禁用token惩罚,抑制黑名单词语的生成。交替优化-微调流程的具体参数设置(例如学习率、迭代次数)需要根据具体的T2I模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AutoPrompt生成的对抗性提示具有出色的红队测试性能,能够有效攻击各种文本到图像模型,包括商业API(例如Leonardo.Ai)。AutoPrompt还具有卓越的零样本迁移能力,能够即时适应未见过的提示,并暴露出模型中的关键漏洞。与现有方法相比,AutoPrompt在生成效率、提示质量和抗过滤能力方面均有显著提升。

🎯 应用场景

AutoPrompt可用于评估和提高文本到图像模型的安全性,帮助开发者发现和修复潜在的安全漏洞。该技术可应用于各种场景,例如内容审核、安全风险评估和模型安全加固,以防止恶意用户利用对抗性提示生成不安全或不期望的图像,保障用户安全和平台稳定。

📄 摘要(原文)

Despite rapid advancements in text-to-image (T2I) models, their safety mechanisms are vulnerable to adversarial prompts, which maliciously generate unsafe images. Current red-teaming methods for proactively assessing such vulnerabilities usually require white-box access to T2I models, and rely on inefficient per-prompt optimization, as well as inevitably generate semantically meaningless prompts easily blocked by filters. In this paper, we propose APT (AutoPrompT), a black-box framework that leverages large language models (LLMs) to automatically generate human-readable adversarial suffixes for benign prompts. We first introduce an alternating optimization-finetuning pipeline between adversarial suffix optimization and fine-tuning the LLM utilizing the optimized suffix. Furthermore, we integrates a dual-evasion strategy in optimization phase, enabling the bypass of both perplexity-based filter and blacklist word filter: (1) we constrain the LLM generating human-readable prompts through an auxiliary LLM perplexity scoring, which starkly contrasts with prior token-level gibberish, and (2) we also introduce banned-token penalties to suppress the explicit generation of banned-tokens in blacklist. Extensive experiments demonstrate the excellent red-teaming performance of our human-readable, filter-resistant adversarial prompts, as well as superior zero-shot transferability which enables instant adaptation to unseen prompts and exposes critical vulnerabilities even in commercial APIs (e.g., Leonardo.Ai.).