FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models

📄 arXiv: 2412.18302v1 📥 PDF

作者: Jaechul Roh, Andrew Yuan, Jinsong Mao

分类: cs.CV, cs.CR, cs.LG

发布日期: 2024-12-24


💡 一句话要点

FameBias:一种无需模型训练的文本到图像模型嵌入操纵偏差攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 文本到图像模型 偏差攻击 嵌入操纵 Stable Diffusion 安全性

📋 核心要点

  1. 现有的文本到图像模型容易受到攻击,攻击者可以通过微调模型嵌入偏差,从而生成带有特定倾向性的图像。
  2. FameBias通过操纵输入文本提示的嵌入向量,使模型生成包含特定公众人物的图像,而无需额外的模型训练。
  3. 实验表明,FameBias在保持原始提示语义的同时,能够成功地使Stable Diffusion V2生成目标人物的图像。

📝 摘要(中文)

文本到图像(T2I)扩散模型发展迅速,能够生成与文本描述高度一致的高质量图像。然而,这种进步也引发了对其被滥用于宣传和其他恶意活动的担忧。最近的研究表明,攻击者可以通过简单的微调将偏差嵌入到这些模型中,使其在被特定短语触发时生成目标图像。这突显了T2I模型作为传播宣传工具的潜力,可以为最终用户生成符合攻击者目标的图像。基于此,我们提出FameBias,一种T2I偏差攻击,它操纵输入提示的嵌入向量来生成以特定公众人物为特征的图像。与先前的方法不同,Famebias仅在输入嵌入向量上操作,而无需额外的模型训练。我们使用Stable Diffusion V2全面评估FameBias,基于各种触发名词和目标公众人物生成大量图像。我们的实验表明,FameBias在多个触发-目标对上实现了高攻击成功率,同时保留了原始提示的语义上下文。

🔬 方法详解

问题定义:论文旨在解决文本到图像模型中存在的偏差问题,即攻击者可以通过操纵输入来使模型生成带有特定倾向性的图像。现有方法通常需要对模型进行微调,这需要大量的计算资源和时间,并且容易被检测到。

核心思路:FameBias的核心思路是在不修改模型参数的情况下,直接操纵输入文本提示的嵌入向量。通过修改嵌入向量,引导模型生成包含目标人物的图像。这种方法更加隐蔽,并且不需要额外的模型训练。

技术框架:FameBias的整体框架包括以下几个步骤:1) 选择一个触发词和一个目标人物;2) 获取触发词的原始嵌入向量;3) 获取目标人物的嵌入向量;4) 对触发词的嵌入向量进行修改,使其更接近目标人物的嵌入向量;5) 将修改后的嵌入向量输入到文本到图像模型中,生成图像。

关键创新:FameBias的关键创新在于它是一种无需模型训练的嵌入操纵攻击。与现有方法相比,FameBias更加高效、隐蔽,并且不需要大量的计算资源。此外,FameBias还可以保留原始提示的语义上下文,避免生成与原始提示完全无关的图像。

关键设计:FameBias的关键设计包括:1) 使用预训练的文本嵌入模型(如CLIP)来获取文本提示的嵌入向量;2) 使用余弦相似度来衡量嵌入向量之间的相似度;3) 使用一个可调节的参数来控制嵌入向量的修改程度。具体来说,通过调整触发词嵌入向量向目标人物嵌入向量靠近的程度,控制生成图像中目标人物的显著性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FameBias能够成功地使Stable Diffusion V2生成包含目标人物的图像,攻击成功率高,同时保留了原始提示的语义上下文。该方法在多个触发-目标对上进行了测试,证明了其有效性和泛化能力。与需要模型微调的现有方法相比,FameBias更加高效和隐蔽。

🎯 应用场景

FameBias的研究成果可以应用于评估和提高文本到图像模型的安全性,防止其被滥用于生成虚假信息、进行政治宣传或诽谤他人。此外,该方法也可以用于开发更加可控的文本到图像生成系统,允许用户在生成图像时指定特定的人物或风格。

📄 摘要(原文)

Text-to-Image (T2I) diffusion models have rapidly advanced, enabling the generation of high-quality images that align closely with textual descriptions. However, this progress has also raised concerns about their misuse for propaganda and other malicious activities. Recent studies reveal that attackers can embed biases into these models through simple fine-tuning, causing them to generate targeted imagery when triggered by specific phrases. This underscores the potential for T2I models to act as tools for disseminating propaganda, producing images aligned with an attacker's objective for end-users. Building on this concept, we introduce FameBias, a T2I biasing attack that manipulates the embeddings of input prompts to generate images featuring specific public figures. Unlike prior methods, Famebias operates solely on the input embedding vectors without requiring additional model training. We evaluate FameBias comprehensively using Stable Diffusion V2, generating a large corpus of images based on various trigger nouns and target public figures. Our experiments demonstrate that FameBias achieves a high attack success rate while preserving the semantic context of the original prompts across multiple trigger-target pairs.