Vulnerability of Text-to-Image Models to Prompt Template Stealing: A Differential Evolution Approach

📄 arXiv: 2502.14285v2 📥 PDF

作者: Yurong Wu, Fangwen Mu, Qiuhong Zhang, Jinjing Zhao, Xinrun Xu, Lingrui Mei, Yang Wu, Lin Shi, Junjie Wang, Zhiming Ding, Yiwei Wang

分类: cs.CL

发布日期: 2025-02-20 (更新: 2025-05-17)

备注: 14 pages,8 figures,4 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出EvoStealer,利用差分进化算法实现对文本生成图像模型的提示词模板窃取。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成图像 提示词工程 提示词窃取 差分进化算法 多模态学习

📋 核心要点

  1. 现有的文本生成图像模型面临提示词模板被窃取的风险,攻击者可以通过少量样本图像反推出原始模板,威胁知识产权。
  2. EvoStealer利用差分进化算法,通过多模态大语言模型迭代生成和优化提示词模板,无需模型微调即可实现高效的模板窃取。
  3. 实验表明,EvoStealer在开源和闭源模型上均表现出色,窃取的模板能够生成高度相似的图像,且泛化能力强,平均提升超过10%。

📝 摘要(中文)

近年来,提示词交易已成为一个重要的知识产权问题,供应商通过展示示例图像来吸引用户,然后出售可以生成类似图像的提示词模板。本文研究了一个关键的安全漏洞:攻击者仅使用有限数量的示例图像即可窃取提示词模板。为了研究这种威胁,我们引入了Prism,这是一个提示词窃取基准,包含50个模板和450张图像,分为简单和困难两个难度级别。为了识别VLM在提示词窃取方面的脆弱性,我们提出了一种新颖的模板窃取方法EvoStealer,该方法无需模型微调,而是利用差分进化算法。该系统首先使用基于预定义模式的多模态大型语言模型(MLLM)初始化种群集合,然后通过MLLM迭代生成增强的后代。在进化过程中,EvoStealer识别后代之间的共同特征以推导出广义模板。我们对开源模型(INTERNVL2-26B)和闭源模型(GPT-4o和GPT-4o-mini)进行的全面评估表明,EvoStealer窃取的模板可以生成与原始图像高度相似的图像,并有效地推广到其他主题,显著优于基线方法,平均提升超过10%。此外,我们的成本分析表明,EvoStealer以可忽略不计的计算成本实现了模板窃取。我们的代码和数据集可在https://github.com/whitepagewu/evostealer获取。

🔬 方法详解

问题定义:论文旨在解决文本生成图像模型中提示词模板被窃取的问题。现有方法通常需要大量的样本图像或模型微调,成本高昂且效率低下。此外,现有方法难以在保证生成图像相似度的同时,保持良好的泛化能力。

核心思路:论文的核心思路是利用差分进化算法,通过迭代优化提示词模板,使其能够生成与目标图像相似的图像。该方法无需模型微调,仅需少量样本图像即可实现高效的模板窃取。通过多模态大语言模型(MLLM)的引导,可以更好地探索提示词空间,提高生成图像的质量和泛化能力。

技术框架:EvoStealer的整体框架包括以下几个主要阶段:1) 初始化种群:使用MLLM基于预定义的模式初始化提示词模板种群。2) 进化迭代:通过差分进化算法,利用MLLM生成新的提示词模板后代。3) 特征提取:识别后代之间的共同特征,以推导出更通用的模板。4) 评估与选择:评估生成的图像与目标图像的相似度,选择优秀的后代进入下一轮迭代。

关键创新:EvoStealer的关键创新在于:1) 提出了一种基于差分进化算法的提示词模板窃取方法,无需模型微调。2) 利用多模态大语言模型引导提示词模板的生成和优化,提高了生成图像的质量和泛化能力。3) 提出了一种特征提取方法,用于识别后代之间的共同特征,以推导出更通用的模板。

关键设计:在初始化阶段,论文使用了预定义的提示词模式,例如“A photo of a [subject]”。在进化迭代阶段,论文使用了差分进化算法的经典算子,例如交叉和变异。在评估阶段,论文使用了CLIP模型来计算生成图像与目标图像之间的相似度。此外,论文还设计了一种自适应的变异策略,以平衡探索和利用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoStealer在开源模型INTERNVL2-26B和闭源模型GPT-4o及GPT-4o-mini上进行了评估,结果表明其窃取的模板能够生成与原始图像高度相似的图像,并有效地推广到其他主题,平均提升超过10%,且计算成本极低。该方法在Prism基准测试中表现出色,证明了其在提示词模板窃取方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于评估和提升文本生成图像模型的安全性,防止恶意攻击者窃取提示词模板,保护知识产权。同时,该方法也可以用于自动化生成高质量的提示词模板,提高图像生成的效率和质量。此外,该技术还可用于分析和理解文本生成图像模型的内部机制。

📄 摘要(原文)

Prompt trading has emerged as a significant intellectual property concern in recent years, where vendors entice users by showcasing sample images before selling prompt templates that can generate similar images. This work investigates a critical security vulnerability: attackers can steal prompt templates using only a limited number of sample images. To investigate this threat, we introduce Prism, a prompt-stealing benchmark consisting of 50 templates and 450 images, organized into Easy and Hard difficulty levels. To identify the vulnerabity of VLMs to prompt stealing, we propose EvoStealer, a novel template stealing method that operates without model fine-tuning by leveraging differential evolution algorithms. The system first initializes population sets using multimodal large language models (MLLMs) based on predefined patterns, then iteratively generates enhanced offspring through MLLMs. During evolution, EvoStealer identifies common features across offspring to derive generalized templates. Our comprehensive evaluation conducted across open-source (INTERNVL2-26B) and closed-source models (GPT-4o and GPT-4o-mini) demonstrates that EvoStealer's stolen templates can reproduce images highly similar to originals and effectively generalize to other subjects, significantly outperforming baseline methods with an average improvement of over 10%. Moreover, our cost analysis reveals that EvoStealer achieves template stealing with negligible computational expenses. Our code and dataset are available at https://github.com/whitepagewu/evostealer.