AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

作者: Yufan Liu, Wanqian Zhang, Huashan Chen, Lin Wang, Xiaojun Jia, Zheng Lin, Weiping Wang

分类: cs.CV

发布日期: 2025-10-28

备注: Accepted by ICCV 2025

💡 一句话要点

提出AutoPrompt，利用LLM自动生成对抗性提示，实现对文本到图像模型的黑盒红队测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对抗性提示 文本到图像模型 红队测试 大型语言模型 黑盒攻击

📋 核心要点

文本到图像模型易受对抗性提示攻击，现有红队测试方法通常需要白盒访问，效率低，且易生成无意义提示。
AutoPrompt利用LLM自动生成人类可读的对抗性后缀，通过交替优化和微调，提升对抗性提示的质量和隐蔽性。
实验表明，AutoPrompt生成的提示具有出色的红队测试性能和零样本迁移能力，能有效攻击商业API。

📝 摘要（中文）

本文提出AutoPrompT (APT)，一个黑盒框架，利用大型语言模型(LLM)自动为良性提示生成人类可读的对抗性后缀，从而对文本到图像(T2I)模型进行红队测试。该框架首先引入对抗性后缀优化和LLM微调之间的交替优化-微调流程，并利用优化后的后缀对LLM进行微调。此外，在优化阶段集成了双重规避策略，以绕过基于困惑度的过滤器和黑名单词过滤器：(1) 通过辅助LLM困惑度评分约束LLM生成人类可读的提示，这与先前token级别的乱码形成鲜明对比；(2) 还引入了禁用token惩罚，以抑制黑名单中禁用token的显式生成。大量实验表明，我们的人类可读、抗过滤的对抗性提示具有出色的红队测试性能，以及卓越的零样本可迁移性，能够即时适应未见过的提示，并暴露出商业API（例如Leonardo.Ai）中的关键漏洞。

🔬 方法详解

问题定义：文本到图像（T2I）模型容易受到对抗性提示的攻击，这些提示可以恶意生成不安全或不期望的图像。现有的红队测试方法主要存在以下痛点：一是通常需要白盒访问T2I模型，这在实际应用中往往不可行；二是依赖于低效的逐提示优化，计算成本高昂；三是容易生成语义上无意义的提示，容易被过滤器屏蔽。

核心思路：AutoPrompt的核心思路是利用大型语言模型（LLM）的生成能力，自动为良性提示生成人类可读的对抗性后缀。通过优化这些后缀，使得T2I模型生成不安全或不期望的图像，从而暴露模型的安全漏洞。这样设计的目的是在黑盒条件下，高效地发现T2I模型的潜在风险。

技术框架：AutoPrompt框架主要包含两个阶段：对抗性后缀优化和LLM微调。首先，使用优化算法（例如梯度下降）搜索能够使T2I模型生成对抗性图像的后缀。然后，利用优化后的后缀对LLM进行微调，使得LLM能够更好地生成类似的对抗性提示。这两个阶段交替进行，以提高对抗性提示的质量和隐蔽性。此外，框架还集成了双重规避策略，以绕过基于困惑度的过滤器和黑名单词过滤器。

关键创新：AutoPrompt的关键创新在于：1) 利用LLM生成人类可读的对抗性提示，避免了生成无意义的乱码提示；2) 提出了交替优化-微调流程，提高了对抗性提示的生成效率和质量；3) 集成了双重规避策略，增强了对抗性提示的抗过滤能力。与现有方法相比，AutoPrompt能够在黑盒条件下，更高效、更隐蔽地发现T2I模型的安全漏洞。

关键设计：在优化阶段，AutoPrompt使用梯度下降算法来搜索对抗性后缀。为了保证生成提示的可读性，引入了辅助LLM困惑度评分，约束LLM生成人类可读的提示。为了避免生成黑名单中的词语，引入了禁用token惩罚，抑制黑名单词语的生成。交替优化-微调流程的具体参数设置（例如学习率、迭代次数）需要根据具体的T2I模型和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AutoPrompt生成的对抗性提示具有出色的红队测试性能，能够有效攻击各种文本到图像模型，包括商业API（例如Leonardo.Ai）。AutoPrompt还具有卓越的零样本迁移能力，能够即时适应未见过的提示，并暴露出模型中的关键漏洞。与现有方法相比，AutoPrompt在生成效率、提示质量和抗过滤能力方面均有显著提升。

🎯 应用场景

AutoPrompt可用于评估和提高文本到图像模型的安全性，帮助开发者发现和修复潜在的安全漏洞。该技术可应用于各种场景，例如内容审核、安全风险评估和模型安全加固，以防止恶意用户利用对抗性提示生成不安全或不期望的图像，保障用户安全和平台稳定。

📄 摘要（原文）

Despite rapid advancements in text-to-image (T2I) models, their safety mechanisms are vulnerable to adversarial prompts, which maliciously generate unsafe images. Current red-teaming methods for proactively assessing such vulnerabilities usually require white-box access to T2I models, and rely on inefficient per-prompt optimization, as well as inevitably generate semantically meaningless prompts easily blocked by filters. In this paper, we propose APT (AutoPrompT), a black-box framework that leverages large language models (LLMs) to automatically generate human-readable adversarial suffixes for benign prompts. We first introduce an alternating optimization-finetuning pipeline between adversarial suffix optimization and fine-tuning the LLM utilizing the optimized suffix. Furthermore, we integrates a dual-evasion strategy in optimization phase, enabling the bypass of both perplexity-based filter and blacklist word filter: (1) we constrain the LLM generating human-readable prompts through an auxiliary LLM perplexity scoring, which starkly contrasts with prior token-level gibberish, and (2) we also introduce banned-token penalties to suppress the explicit generation of banned-tokens in blacklist. Extensive experiments demonstrate the excellent red-teaming performance of our human-readable, filter-resistant adversarial prompts, as well as superior zero-shot transferability which enables instant adaptation to unseen prompts and exposes critical vulnerabilities even in commercial APIs (e.g., Leonardo.Ai.).

AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理