A Gray-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse

作者: Zhongliang Guo, Chun Tong Lei, Lei Fang, Shuai Zhao, Yifei Qian, Jingyu Lin, Zeyu Wang, Cunjian Chen, Ognjen Arandjelović, Chun Pong Lau

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-08-20 (更新: 2025-11-26)

备注: 15 pages, 9 figures, 9 tables

DOI: 10.1109/TIFS.2025.3639957

🔗 代码/项目: GITHUB

💡 一句话要点

提出后验坍塌攻击PCA，保护图像免受基于LDM的未经授权编辑。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 对抗攻击 潜在扩散模型 图像编辑保护 后验坍塌 变分自编码器 知识产权保护 提示不变性

📋 核心要点

现有对抗攻击方法在保护图像免受LDM编辑时，过度依赖模型细节，计算成本高昂，限制了其应用。
PCA利用VAE推理中的后验坍塌现象，通过操纵VAE编码器，使图像对LDM的编辑操作产生抵抗性。
实验表明，PCA在保护效果、计算效率和泛化能力上优于现有方法，且对模型依赖性更低。

📝 摘要（中文）

近年来，潜在扩散模型（LDMs）在图像合成和编辑方面取得了革命性进展，但也引发了关于数据盗用和知识产权侵权的担忧。对抗攻击已被广泛探索作为防止生成式AI滥用的保护措施，但现有方法严重依赖于模型特定知识和高昂的计算成本。受VAE训练中后验坍塌现象的启发，我们提出了后验坍塌攻击（PCA），这是一个用于保护图像免受未经授权操作的新框架。通过全面的理论分析和实验验证，我们识别了VAE推理过程中的两种不同的坍塌现象：扩散坍塌和集中坍塌。基于此，我们设计了一个统一的损失函数，可以通过参数调整灵活地实现这两种类型的坍塌，每种坍塌对应于防止图像操作中的不同保护目标。我们的方法仅需访问VAE编码器（占LDM参数的不到4%），从而显著降低了对模型特定知识的依赖。PCA通过在文本条件作用之前操作VAE编码器来实现提示不变保护，无需现有方法所需的空提示优化。这种最小的要求使PCA能够在各种基于VAE的LDM架构中保持足够的迁移性，同时有效防止未经授权的图像编辑。大量实验表明，PCA在保护效果、计算效率（运行时间和VRAM）以及基于VAE的LDM变体的泛化方面优于现有技术。我们的代码可在https://github.com/ZhongliangGuo/PosteriorCollapseAttack获取。

🔬 方法详解

问题定义：论文旨在解决基于潜在扩散模型（LDM）的图像编辑带来的数据盗用和知识产权侵权问题。现有对抗攻击方法通常需要大量的模型特定知识，计算成本高昂，并且泛化能力有限，难以有效保护图像免受未经授权的编辑。

核心思路：论文的核心思路是借鉴变分自编码器（VAE）训练中出现的后验坍塌现象，通过在图像的VAE编码阶段引入对抗扰动，使得图像在LDM的潜在空间中变得“脆弱”，从而干扰后续的编辑操作。这种方法旨在使图像对任何基于文本提示的编辑都具有抵抗性，实现“提示不变”的保护。

技术框架：PCA攻击框架主要包含以下几个阶段：1) 使用VAE编码器将原始图像编码到潜在空间；2) 在潜在空间中，通过优化设计的损失函数，引入对抗扰动，诱导后验坍塌（扩散坍塌或集中坍塌）；3) 将扰动后的潜在表示输入到LDM中进行图像编辑，观察编辑效果；4) 通过调整损失函数的参数，可以灵活地控制坍塌的类型，从而实现不同的保护目标。

关键创新：PCA的关键创新在于：1) 提出了利用后验坍塌现象进行图像保护的新思路；2) 设计了一种统一的损失函数，可以通过参数调整实现扩散坍塌和集中坍塌两种不同的坍塌类型；3) 显著降低了对模型特定知识的依赖，仅需访问VAE编码器即可实现有效的保护；4) 通过在文本条件作用之前操作VAE编码器，实现了提示不变的保护，无需进行耗时的空提示优化。

关键设计：PCA的关键设计包括：1) 损失函数的设计，该函数包含两部分，分别用于诱导扩散坍塌和集中坍塌，通过调整权重参数可以控制坍塌的类型；2) 对抗扰动的幅度控制，需要平衡保护效果和图像质量；3) VAE编码器的选择，不同的VAE编码器可能会影响攻击效果，需要根据具体的LDM架构进行选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PCA在保护效果上优于现有方法，能够有效阻止基于LDM的图像编辑。PCA仅需访问VAE编码器，计算效率显著提高，运行时间和VRAM占用均大幅降低。此外，PCA在不同的基于VAE的LDM变体上表现出良好的泛化能力，证明了其鲁棒性和实用性。

🎯 应用场景

PCA可应用于数字版权管理、图像溯源、防止深度伪造等领域。通过保护图像免受未经授权的编辑，可以维护创作者的知识产权，防止恶意篡改和传播虚假信息。该技术还有助于提高生成式AI的安全性，降低其被滥用的风险，促进其健康发展。

📄 摘要（原文）

Recent advancements in Latent Diffusion Models (LDMs) have revolutionized image synthesis and manipulation, raising significant concerns about data misappropriation and intellectual property infringement. While adversarial attacks have been extensively explored as a protective measure against such misuse of generative AI, current approaches are severely limited by their heavy reliance on model-specific knowledge and substantial computational costs. Drawing inspiration from the posterior collapse phenomenon observed in VAE training, we propose the Posterior Collapse Attack (PCA), a novel framework for protecting images from unauthorized manipulation. Through comprehensive theoretical analysis and empirical validation, we identify two distinct collapse phenomena during VAE inference: diffusion collapse and concentration collapse. Based on this discovery, we design a unified loss function that can flexibly achieve both types of collapse through parameter adjustment, each corresponding to different protection objectives in preventing image manipulation. Our method significantly reduces dependence on model-specific knowledge by requiring access to only the VAE encoder, which constitutes less than 4\% of LDM parameters. Notably, PCA achieves prompt-invariant protection by operating on the VAE encoder before text conditioning occurs, eliminating the need for empty prompt optimization required by existing methods. This minimal requirement enables PCA to maintain adequate transferability across various VAE-based LDM architectures while effectively preventing unauthorized image editing. Extensive experiments show PCA outperforms existing techniques in protection effectiveness, computational efficiency (runtime and VRAM), and generalization across VAE-based LDM variants. Our code is available at https://github.com/ZhongliangGuo/PosteriorCollapseAttack.

A Gray-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理