Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
作者: Yunzhuo Chen, Jordan Vice, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian
分类: cs.CV
发布日期: 2026-03-13
💡 一句话要点
提出区域感知提示增强和多模态复制检测,缓解文本到图像扩散模型中的记忆化问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 扩散模型 记忆化缓解 提示增强 多模态复制检测
📋 核心要点
- 文本到图像扩散模型存在记忆训练数据的问题,导致版权和隐私风险,而现有提示扰动方法会损害图像质量。
- 论文提出区域感知提示增强(RAPTA)和注意力驱动的多模态复制检测(ADMCD)两种互补方法来解决该问题。
- 实验结果表明,RAPTA降低了过拟合,同时保持了图像合成质量,ADMCD能够有效检测复制行为,性能优于单模态方法。
📝 摘要(中文)
最先进的文本到图像扩散模型虽然能生成令人印象深刻的视觉效果,但也可能记忆并重现训练图像,从而带来版权和隐私风险。现有的推理时提示扰动方法,如随机token插入或嵌入噪声,虽然可以降低复制风险,但通常会损害图像-提示对齐和整体保真度。为了解决这个问题,我们提出了两种互补的方法。首先,区域感知提示增强(RAPTA)使用目标检测器来找到显著区域,并将它们转换为语义相关的提示变体,在训练期间随机采样这些变体以增加多样性,同时保持语义对齐。其次,注意力驱动的多模态复制检测(ADMCD)聚合局部patch、全局语义和纹理线索,使用轻量级transformer生成融合表示,并应用简单的阈值决策规则来检测复制,而无需使用大型带注释的数据集进行训练。实验表明,RAPTA在保持高合成质量的同时降低了过拟合,ADMCD能够可靠地检测复制,优于单模态指标。
🔬 方法详解
问题定义:文本到图像扩散模型在生成高质量图像的同时,存在记忆训练数据的风险,导致模型可能直接复制训练集中的图像,引发版权和隐私问题。现有的通过在推理阶段对prompt进行扰动的方法,例如随机插入token或添加噪声,虽然可以降低复制的风险,但往往会损害生成图像与prompt的语义一致性以及整体的图像质量。
核心思路:论文的核心思路是通过在训练阶段引入区域感知的prompt增强来提高模型的泛化能力,减少其对训练数据的过度依赖,同时在推理阶段使用多模态的复制检测方法来识别和防止模型复制训练数据。RAPTA旨在通过增加训练数据的多样性来减少记忆化,ADMCD则旨在通过分析生成图像的多模态特征来检测复制行为。
技术框架:整个框架包含两个主要模块:RAPTA(Region-Aware Prompt Augmentation)和ADMCD(Attention-Driven Multimodal Copy Detection)。RAPTA在训练阶段使用,首先利用目标检测器识别图像中的显著区域,然后基于这些区域生成语义相关的prompt变体,用于增强训练数据。ADMCD在推理阶段使用,它提取生成图像的局部patch特征、全局语义特征和纹理特征,并通过一个轻量级的transformer进行融合,最后使用阈值规则来判断是否存在复制行为。
关键创新:论文的关键创新在于RAPTA和ADMCD的结合使用。RAPTA通过区域感知的prompt增强,在训练阶段提高了模型的泛化能力,减少了记忆化。ADMCD则通过多模态特征融合,提高了复制检测的准确性和鲁棒性,无需依赖大型标注数据集进行训练。与现有方法相比,RAPTA在保持图像质量的同时降低了过拟合,ADMCD在无需训练的情况下实现了高效的复制检测。
关键设计:RAPTA的关键设计在于使用目标检测器来识别图像中的显著区域,并基于这些区域生成语义相关的prompt变体。ADMCD的关键设计在于使用轻量级的transformer来融合局部patch特征、全局语义特征和纹理特征,并使用简单的阈值规则进行复制检测。具体来说,目标检测器可以使用预训练的YOLOv5等模型。Transformer可以使用几层Transformer Encoder,损失函数主要关注生成图像的质量和与prompt的对齐程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAPTA在降低模型过拟合的同时,保持了较高的图像合成质量。ADMCD能够有效地检测复制行为,并且优于单模态的复制检测方法。具体性能数据未在摘要中给出,但强调了RAPTA和ADMCD的有效性和优越性。
🎯 应用场景
该研究成果可应用于各种文本到图像生成系统,以降低版权风险和保护用户隐私。例如,可以集成到商业图像生成API中,防止模型生成侵权内容。此外,该方法还可以应用于其他生成模型,如文本到视频生成,以提高模型的安全性和可靠性。
📄 摘要(原文)
State-of-the-art text-to-image diffusion models can produce impressive visuals but may memorize and reproduce training images, creating copyright and privacy risks. Existing prompt perturbations applied at inference time, such as random token insertion or embedding noise, may lower copying but often harm image-prompt alignment and overall fidelity. To address this, we introduce two complementary methods. First, Region-Aware Prompt Augmentation (RAPTA) uses an object detector to find salient regions and turn them into semantically grounded prompt variants, which are randomly sampled during training to increase diversity, while maintaining semantic alignment. Second, Attention-Driven Multimodal Copy Detection (ADMCD) aggregates local patch, global semantic, and texture cues with a lightweight transformer to produce a fused representation, and applies simple thresholded decision rules to detect copying without training with large annotated datasets. Experiments show that RAPTA reduces overfitting while maintaining high synthesis quality, and that ADMCD reliably detects copying, outperforming single-modal metrics.