DGM4+: Dataset Extension for Global Scene Inconsistency
作者: Gagandeep Singh, Samudi Amarsinghe, Priyanka Singh, Xue Li
分类: cs.CV
发布日期: 2025-09-30
备注: 8 pages, 3 figures
🔗 代码/项目: GITHUB
💡 一句话要点
DGM4+:扩展数据集以应对全局场景不一致性,提升多模态伪造检测能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态伪造检测 全局场景不一致性 数据集扩展 前景背景不匹配 虚假信息检测
📋 核心要点
- 现有数据集主要关注局部篡改,忽略了现实伪造中常见的全局场景不一致性问题,如前景背景不匹配。
- 通过OpenAI的gpt-image-1生成包含前景背景不匹配的图像,并结合文本操纵,构建了新的DGM4+数据集。
- DGM4+数据集旨在提升多模态模型在全局和局部推理方面的能力,尤其针对现有模型在处理前景背景不一致性方面的不足。
📝 摘要(中文)
生成模型的快速发展显著降低了制造令人信服的多模态虚假信息的门槛。伪造图像和篡改的标题越来越多地共同出现,以创建具有说服力的虚假叙述。虽然检测和定位多模态媒体操纵(DGM4)数据集为该领域的研究奠定了基础,但它仅限于局部操纵,如换脸、属性编辑和标题更改。这留下了一个关键的空白:全局不一致性,例如不匹配的前景和背景,这些在现实世界的伪造品中现在很普遍。为了解决这个问题,我们使用5,000个高质量样本扩展了DGM4,这些样本引入了前景-背景(FG-BG)不匹配及其与文本操纵的混合。使用OpenAI的gpt-image-1和精心设计的提示,我们生成以人为中心的新闻风格图像,其中真实的形象被放置在荒谬或不可能的背景中(例如,一位老师平静地在火星表面向学生讲话)。标题在三种条件下生成:字面、文本属性和文本分割,从而产生三个新的操纵类别:FG-BG、FG-BG+TA和FG-BG+TS。质量控制流程强制执行一到三个可见的面孔、感知哈希去重、基于OCR的文本清理和真实的新闻标题长度。通过引入全局操纵,我们的扩展补充了现有的数据集,创建了一个基准DGM4+,用于测试检测器在局部和全局推理方面的能力。该资源旨在加强对多模态模型(如HAMMER)的评估,这些模型目前难以处理FG-BG不一致性。我们在https://github.com/Gaganx0/DGM4plus发布了我们的DGM4+数据集和生成脚本。
🔬 方法详解
问题定义:现有数据集(如DGM4)主要关注图像的局部篡改,例如换脸、属性编辑等,而忽略了全局场景的不一致性,例如前景和背景不匹配。这种全局不一致性在现实世界的伪造图像中越来越常见,现有的多模态模型难以有效检测此类伪造。
核心思路:论文的核心思路是通过扩展现有的DGM4数据集,引入包含前景-背景(FG-BG)不匹配的图像,并结合文本操纵,从而创建一个更具挑战性的数据集DGM4+。这样可以更好地测试和提升多模态模型在全局和局部推理方面的能力。
技术框架:DGM4+数据集的生成流程主要包括以下几个阶段: 1. 图像生成:使用OpenAI的gpt-image-1模型,通过精心设计的提示(prompts)生成以人为中心的新闻风格图像,其中真实的人物被放置在荒谬或不可能的背景中。 2. 文本生成:生成与图像相关的标题,标题分为三种类型:字面(literal)、文本属性(text attribute)和文本分割(text split),从而产生三种新的操纵类别:FG-BG、FG-BG+TA和FG-BG+TS。 3. 质量控制:通过一系列质量控制流程,包括人脸数量检测(1-3张)、感知哈希去重、基于OCR的文本清理和新闻标题长度限制,确保数据集的高质量。
关键创新:该论文的关键创新在于引入了全局场景不一致性(前景-背景不匹配)的概念,并将其融入到多模态伪造检测的数据集中。与现有数据集相比,DGM4+不仅包含局部篡改,还包含全局不一致性,从而更贴近现实世界的伪造场景。
关键设计: * Prompt设计:针对gpt-image-1模型设计了特定的prompt,以生成包含特定人物和荒谬背景的图像。 * 文本操纵:设计了三种类型的标题生成方式(字面、文本属性、文本分割),以增加数据集的多样性。 * 质量控制流程:实施了一系列质量控制措施,以确保数据集的高质量和真实性。
🖼️ 关键图片
📊 实验亮点
DGM4+数据集包含5000个高质量样本,引入了前景-背景不匹配及其与文本操纵的混合。实验表明,现有模型(如HAMMER)在处理DGM4+数据集中的全局不一致性时表现不佳,这表明DGM4+数据集能够有效评估和提升多模态模型在全局推理方面的能力。
🎯 应用场景
DGM4+数据集可用于训练和评估多模态模型,以提高其检测虚假信息的能力。该数据集尤其适用于评估模型在处理全局场景不一致性方面的性能,例如检测新闻图像中人物与背景不符的情况。这有助于识别和阻止虚假新闻的传播,维护社会稳定。
📄 摘要(原文)
The rapid advances in generative models have significantly lowered the barrier to producing convincing multimodal disinformation. Fabricated images and manipulated captions increasingly co-occur to create persuasive false narratives. While the Detecting and Grounding Multi-Modal Media Manipulation (DGM4) dataset established a foundation for research in this area, it is restricted to local manipulations such as face swaps, attribute edits, and caption changes. This leaves a critical gap: global inconsistencies, such as mismatched foregrounds and backgrounds, which are now prevalent in real-world forgeries. To address this, we extend DGM4 with 5,000 high-quality samples that introduce Foreground-Background (FG-BG) mismatches and their hybrids with text manipulations. Using OpenAI's gpt-image-1 and carefully designed prompts, we generate human-centric news-style images where authentic figures are placed into absurd or impossible backdrops (e.g., a teacher calmly addressing students on the surface of Mars). Captions are produced under three conditions: literal, text attribute, and text split, yielding three new manipulation categories: FG-BG, FG-BG+TA, and FG-BG+TS. Quality control pipelines enforce one-to-three visible faces, perceptual hash deduplication, OCR-based text scrubbing, and realistic headline length. By introducing global manipulations, our extension complements existing datasets, creating a benchmark DGM4+ that tests detectors on both local and global reasoning. This resource is intended to strengthen evaluation of multimodal models such as HAMMER, which currently struggle with FG-BG inconsistencies. We release our DGM4+ dataset and generation script at https://github.com/Gaganx0/DGM4plus