OpenSDI: Spotting Diffusion-Generated Images in the Open World

📄 arXiv: 2503.19653v3 📥 PDF

作者: Yabin Wang, Zhiwu Huang, Xiaopeng Hong

分类: cs.CV, cs.AI

发布日期: 2025-03-25 (更新: 2025-04-16)

🔗 代码/项目: GITHUB


💡 一句话要点

提出OpenSDI数据集与SPM框架,用于开放世界中扩散模型生成图像的检测与定位。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型检测 图像篡改检测 开放世界 协同预训练模型 视觉-语言模型

📋 核心要点

  1. 现有方法难以有效检测和定位开放世界中,由扩散模型操纵生成的图像,泛化能力不足。
  2. 提出协同预训练模型(SPM)框架,通过提示和注意力机制,协同多个预训练模型以提升泛化性。
  3. 实验表明,MaskCLIP在OpenSDID数据集上显著优于现有方法,定位IoU提升14.23%,检测准确率提升2.05%。

📝 摘要(中文)

本文提出了OpenSDI,即在开放世界环境中检测扩散模型生成的图像这一挑战。为了应对这一挑战,我们定义了一个新的基准数据集OpenSDID,它与其他数据集的不同之处在于,它广泛使用了大型视觉-语言模型来模拟开放世界中基于扩散的图像操作。OpenSDID的另一个突出特点是,它包含了对扩散模型全局和局部操作图像的检测和定位任务。为了解决OpenSDI挑战,我们提出了一种协同预训练模型(SPM)方案来构建基础模型的混合。该方法利用多个预训练基础模型的协作机制,通过提示和注意力策略协同多个预训练模型,从而增强OpenSDI环境中的泛化能力,超越了传统的训练方式。在此方案的基础上,我们引入了MaskCLIP,这是一个基于SPM的模型,它将对比语言-图像预训练(CLIP)与掩码自编码器(MAE)对齐。在OpenSDID上的大量评估表明,MaskCLIP显著优于当前最先进的OpenSDI挑战方法,在定位和检测任务中,相对于第二好的模型,分别实现了14.23%的IoU(14.11%的F1)和2.05%的准确率(2.38%的F1)的显著相对改进。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI获取。

🔬 方法详解

问题定义:论文旨在解决开放世界中,检测和定位由扩散模型生成的图像这一问题。现有方法在面对各种扩散模型操作时,泛化能力不足,难以有效识别。痛点在于缺乏一个能够模拟真实开放世界场景,并包含全局和局部操作的数据集,以及一个能够有效利用现有预训练模型知识的框架。

核心思路:论文的核心思路是利用多个预训练模型之间的协同作用,通过提示(Prompting)和注意力(Attention)机制,将它们的知识融合起来,从而提高模型在开放世界场景下的泛化能力。这种方法避免了从头开始训练模型,而是充分利用了现有预训练模型的强大表征能力。

技术框架:整体框架由协同预训练模型(SPM)构成,具体实现为MaskCLIP模型。MaskCLIP将对比语言-图像预训练(CLIP)与掩码自编码器(MAE)相结合。CLIP负责提取图像和文本的全局语义信息,MAE负责学习图像的局部细节信息。通过SPM框架,CLIP和MAE可以相互协作,共同完成图像的检测和定位任务。框架包含图像编码器、文本编码器、掩码图像建模模块和检测/定位头。

关键创新:最重要的技术创新点在于SPM框架,它能够有效地将多个预训练模型的知识融合起来,从而提高模型在开放世界场景下的泛化能力。与现有方法相比,SPM框架不是简单地微调单个预训练模型,而是通过提示和注意力机制,让多个预训练模型相互协作,共同完成任务。MaskCLIP是SPM框架的一个具体实现,它将CLIP和MAE相结合,充分利用了它们的优势。

关键设计:MaskCLIP的关键设计包括:1) 使用CLIP的图像编码器和文本编码器提取全局特征;2) 使用MAE进行掩码图像建模,学习局部特征;3) 设计提示策略,引导CLIP关注与检测/定位任务相关的区域;4) 使用注意力机制,融合CLIP和MAE的特征;5) 使用交叉熵损失函数训练检测/定位头。具体的参数设置和网络结构细节可以在论文的实验部分找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MaskCLIP在OpenSDID数据集上取得了显著的性能提升。在定位任务中,MaskCLIP的IoU达到了69.25%,相比第二好的模型提升了14.23%;F1值达到了70.12%,提升了14.11%。在检测任务中,MaskCLIP的准确率达到了94.21%,相比第二好的模型提升了2.05%;F1值达到了94.03%,提升了2.38%。这些结果表明,SPM框架和MaskCLIP模型能够有效地解决开放世界中扩散模型生成图像的检测和定位问题。

🎯 应用场景

该研究成果可应用于内容审核、版权保护、虚假信息检测等领域。例如,可以用于检测社交媒体平台上由扩散模型生成的虚假图像,从而维护网络空间的健康。此外,该技术还可以用于检测未经授权使用他人图像生成的商业内容,从而保护版权所有者的权益。未来,该技术有望在更广泛的图像安全领域发挥重要作用。

📄 摘要(原文)

This paper identifies OpenSDI, a challenge for spotting diffusion-generated images in open-world settings. In response to this challenge, we define a new benchmark, the OpenSDI dataset (OpenSDID), which stands out from existing datasets due to its diverse use of large vision-language models that simulate open-world diffusion-based manipulations. Another outstanding feature of OpenSDID is its inclusion of both detection and localization tasks for images manipulated globally and locally by diffusion models. To address the OpenSDI challenge, we propose a Synergizing Pretrained Models (SPM) scheme to build up a mixture of foundation models. This approach exploits a collaboration mechanism with multiple pretrained foundation models to enhance generalization in the OpenSDI context, moving beyond traditional training by synergizing multiple pretrained models through prompting and attending strategies. Building on this scheme, we introduce MaskCLIP, an SPM-based model that aligns Contrastive Language-Image Pre-Training (CLIP) with Masked Autoencoder (MAE). Extensive evaluations on OpenSDID show that MaskCLIP significantly outperforms current state-of-the-art methods for the OpenSDI challenge, achieving remarkable relative improvements of 14.23% in IoU (14.11% in F1) and 2.05% in accuracy (2.38% in F1) compared to the second-best model in localization and detection tasks, respectively. Our dataset and code are available at https://github.com/iamwangyabin/OpenSDI.