Reinforcement Learning-Based Prompt Template Stealing for Text-to-Image Models

📄 arXiv: 2510.00046v1 📥 PDF

作者: Xiaotian Zou

分类: cs.CV, cs.AI

发布日期: 2025-09-27

备注: 10 pages, 3 figures


💡 一句话要点

提出RLStealer,基于强化学习从少量图像中窃取文本到图像模型的Prompt模板。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 Prompt工程 文本到图像模型 安全漏洞 Prompt窃取

📋 核心要点

  1. Prompt交易市场存在安全风险,攻击者可能窃取Prompt模板,但现有方法成本高昂。
  2. RLStealer将Prompt窃取建模为序列决策问题,利用强化学习和相似性奖励高效探索Prompt空间。
  3. 实验表明,RLStealer在窃取Prompt模板方面优于现有方法,攻击成本降低至13%,并具有良好的泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLMs)改变了文本到图像的工作流程,使设计者能够以前所未有的速度创建新的视觉概念。这种进步催生了一个蓬勃发展的Prompt交易市场,在这个市场上,可以购买和出售诱导商标风格的精选Prompt。虽然Prompt交易在商业上具有吸引力,但也引入了一个在很大程度上未被检验的安全风险:Prompt本身可能会被盗。本文揭示了这种漏洞,并提出了RLStealer,这是一个基于强化学习的Prompt反演框架,仅从一小部分示例图像中恢复其模板。RLStealer将模板窃取视为一个序列决策问题,并采用多个基于相似性的反馈信号作为奖励函数,以有效地探索Prompt空间。在公开基准上的综合实验表明,RLStealer获得了最先进的性能,同时将总攻击成本降低到现有基线所需成本的13%以下。我们的进一步分析证实,RLStealer可以有效地推广到不同的图像风格,从而有效地窃取未见过的Prompt模板。我们的研究强调了Prompt交易中固有的紧迫安全威胁,并为在新兴的MLLM市场中制定保护标准奠定了基础。

🔬 方法详解

问题定义:论文旨在解决文本到图像模型中Prompt模板被窃取的问题。现有的Prompt交易市场存在安全隐患,攻击者可以通过逆向工程窃取Prompt模板,但现有方法通常需要大量的查询和计算资源,攻击成本高昂,效率低下。

核心思路:论文的核心思路是将Prompt模板窃取问题建模为一个序列决策问题,并利用强化学习(RL)来寻找最优的Prompt模板。通过与文本到图像模型交互,并根据生成的图像与目标图像的相似度来调整Prompt,从而逐步逼近原始Prompt模板。这种方法能够更有效地探索Prompt空间,降低攻击成本。

技术框架:RLStealer框架主要包含以下几个模块:1) 环境:文本到图像模型,接收Prompt并生成图像;2) 智能体:基于强化学习的Prompt生成器,负责生成Prompt;3) 奖励函数:基于图像相似度的反馈信号,用于评估生成的图像与目标图像的相似度,并作为智能体的奖励;4) 策略优化:使用强化学习算法(如REINFORCE或PPO)来优化智能体的策略,使其能够生成更接近原始Prompt模板的Prompt。整个流程是一个迭代过程,智能体不断与环境交互,并根据奖励函数调整策略,最终找到能够生成与目标图像相似图像的Prompt模板。

关键创新:RLStealer的关键创新在于将Prompt模板窃取问题建模为一个序列决策问题,并利用强化学习来解决。与传统的基于搜索或优化的方法相比,强化学习能够更有效地探索Prompt空间,并利用反馈信号来指导Prompt的生成,从而降低了攻击成本。此外,RLStealer还采用了多个基于相似性的反馈信号作为奖励函数,进一步提高了攻击的效率和准确性。

关键设计:RLStealer的关键设计包括:1) 状态表示:将当前生成的Prompt作为状态输入到智能体中;2) 动作空间:定义了Prompt的修改操作,例如添加、删除或替换单词;3) 奖励函数:采用了多个基于图像相似度的指标,例如CLIP相似度、LPIPS距离等,并将它们组合成一个综合的奖励信号;4) 强化学习算法:可以使用不同的强化学习算法,例如REINFORCE、PPO等,来优化智能体的策略。具体的参数设置需要根据具体的文本到图像模型和目标Prompt模板进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RLStealer在Prompt模板窃取任务中取得了最先进的性能,攻击成本降低到现有基线的13%以下。此外,RLStealer还具有良好的泛化能力,可以有效地窃取不同图像风格的Prompt模板。这些结果表明,RLStealer是一种高效且通用的Prompt窃取方法,对文本到图像模型的安全性构成了严重威胁。

🎯 应用场景

该研究成果可应用于评估和提升文本到图像模型的安全性,防止恶意攻击者窃取Prompt模板。Prompt交易平台可以利用该技术来检测和防御Prompt窃取攻击,保护Prompt创作者的知识产权。此外,该研究还可以促进Prompt工程领域的发展,帮助研究人员更好地理解Prompt的特性和作用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have transformed text-to-image workflows, allowing designers to create novel visual concepts with unprecedented speed. This progress has given rise to a thriving prompt trading market, where curated prompts that induce trademark styles are bought and sold. Although commercially attractive, prompt trading also introduces a largely unexamined security risk: the prompts themselves can be stolen. In this paper, we expose this vulnerability and present RLStealer, a reinforcement learning based prompt inversion framework that recovers its template from only a small set of example images. RLStealer treats template stealing as a sequential decision making problem and employs multiple similarity based feedback signals as reward functions to effectively explore the prompt space. Comprehensive experiments on publicly available benchmarks demonstrate that RLStealer gets state-of-the-art performance while reducing the total attack cost to under 13% of that required by existing baselines. Our further analysis confirms that RLStealer can effectively generalize across different image styles to efficiently steal unseen prompt templates. Our study highlights an urgent security threat inherent in prompt trading and lays the groundwork for developing protective standards in the emerging MLLMs marketplace.