ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization

📄 arXiv: 2410.10238v2 📥 PDF

作者: Jiawei Liu, Fanrui Zhang, Jiaying Zhu, Esther Sun, Qiang Zhang, Zheng-Jun Zha

分类: cs.CV, cs.AI

发布日期: 2024-10-14 (更新: 2025-01-06)

备注: 16 pages, 14 figures


💡 一句话要点

提出ForgeryGPT,利用多模态大语言模型实现可解释的图像伪造检测与定位。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像伪造检测 多模态大语言模型 可解释性 视觉推理 伪造定位

📋 核心要点

  1. 现有图像伪造检测方法依赖低级特征,缺乏语义理解,且无法提供可解释的判断依据。
  2. ForgeryGPT通过Mask-Aware Forgery Extractor提取精确伪造掩码,结合定制LLM实现可解释的伪造检测。
  3. 实验表明,该方法能有效捕获伪造细节,提升检测性能,并支持交互式对话解释伪造原因。

📝 摘要(中文)

多模态大语言模型(MLLMs),如GPT4o,在视觉推理和解释生成方面表现出强大的能力。然而,尽管有这些优势,它们在日益重要的图像伪造检测与定位(IFDL)任务中面临着重大挑战。此外,现有的IFDL方法通常仅限于学习低级语义无关的线索,并且只提供单一的结果判断。为了解决这些问题,我们提出了ForgeryGPT,这是一个新颖的框架,通过从不同的语言特征空间捕获伪造图像的高阶取证知识相关性来推进IFDL任务,同时通过新定制的大语言模型(LLM)架构实现可解释的生成和交互式对话。具体来说,ForgeryGPT通过集成Mask-Aware Forgery Extractor来增强传统的LLM,该提取器能够从输入图像中挖掘精确的伪造掩码信息,并促进对篡改伪影的像素级理解。Mask-Aware Forgery Extractor由Forgery Localization Expert(FL-Expert)和Mask Encoder组成,其中FL-Expert通过Object-agnostic Forgery Prompt和Vocabulary-enhanced Vision Encoder进行增强,从而能够有效地捕获多尺度细粒度的伪造细节。为了提高其性能,我们实施了一个三阶段的训练策略,并由我们设计的Mask-Text Alignment和IFDL Task-Specific Instruction Tuning数据集提供支持,这些数据集对齐了视觉-语言模态,并提高了伪造检测和指令遵循能力。大量的实验证明了该方法的有效性。

🔬 方法详解

问题定义:图像伪造检测与定位(IFDL)旨在识别图像中被篡改的区域并确定篡改类型。现有方法主要依赖于学习低级、语义无关的线索,例如噪声不一致性或边缘伪影,缺乏对图像内容和语义的理解,导致检测精度有限,且难以提供可解释的检测结果。此外,现有方法通常只输出一个简单的“真/假”判断,无法解释伪造的原因和方式。

核心思路:ForgeryGPT的核心思路是利用多模态大语言模型(MLLM)的强大视觉推理和语言生成能力,结合专门设计的伪造特征提取模块,从图像中提取高阶取证知识相关性,并将其与语言信息对齐,从而实现可解释的图像伪造检测与定位。通过引入Mask-Aware Forgery Extractor,模型能够关注图像中潜在的伪造区域,并提取精确的伪造掩码信息,从而实现像素级别的理解。

技术框架:ForgeryGPT的整体框架包括以下几个主要模块:1) Mask-Aware Forgery Extractor:负责从输入图像中提取伪造掩码信息,由Forgery Localization Expert (FL-Expert) 和 Mask Encoder组成。FL-Expert利用Object-agnostic Forgery Prompt和Vocabulary-enhanced Vision Encoder来捕获多尺度细粒度的伪造细节。2) 大语言模型(LLM):负责接收提取的视觉特征和文本信息,进行推理和生成,输出伪造检测结果和解释。3) 三阶段训练策略:包括Mask-Text Alignment和IFDL Task-Specific Instruction Tuning,用于对齐视觉-语言模态,并提高伪造检测和指令遵循能力。

关键创新:ForgeryGPT的关键创新在于Mask-Aware Forgery Extractor的设计,它能够从图像中挖掘精确的伪造掩码信息,并将其与语言信息对齐。与现有方法相比,ForgeryGPT不仅能够检测图像是否被伪造,还能够定位伪造区域,并提供可解释的伪造原因。此外,ForgeryGPT还引入了Object-agnostic Forgery Prompt和Vocabulary-enhanced Vision Encoder,进一步提高了伪造特征提取的精度。

关键设计:FL-Expert使用了Object-agnostic Forgery Prompt,旨在引导模型关注图像中潜在的伪造区域,而忽略图像中的其他对象。Vocabulary-enhanced Vision Encoder则通过引入额外的词汇信息,增强了模型对图像细节的理解能力。三阶段训练策略包括:1) 预训练阶段,使用大规模图像-文本数据集对模型进行预训练。2) Mask-Text Alignment阶段,使用专门设计的Mask-Text Alignment数据集对模型进行微调,以对齐视觉-语言模态。3) IFDL Task-Specific Instruction Tuning阶段,使用IFDL Task-Specific Instruction Tuning数据集对模型进行微调,以提高伪造检测和指令遵循能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ForgeryGPT在图像伪造检测和定位任务上取得了显著的性能提升。通过与现有方法的对比,ForgeryGPT在检测精度和可解释性方面均优于现有方法。具体而言,ForgeryGPT能够更准确地定位伪造区域,并提供更详细、更可信的伪造原因解释。实验还验证了Mask-Aware Forgery Extractor和三阶段训练策略的有效性。

🎯 应用场景

ForgeryGPT可应用于数字取证、新闻媒体、社交网络等领域,用于检测和识别伪造图像,防止虚假信息的传播。该技术可以帮助用户识别经过篡改的图像,从而提高信息的可信度,维护社会稳定。未来,该技术有望集成到图像搜索引擎、社交媒体平台等应用中,实现自动化的图像伪造检测。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs), such as GPT4o, have shown strong capabilities in visual reasoning and explanation generation. However, despite these strengths, they face significant challenges in the increasingly critical task of Image Forgery Detection and Localization (IFDL). Moreover, existing IFDL methods are typically limited to the learning of low-level semantic-agnostic clues and merely provide a single outcome judgment. To tackle these issues, we propose ForgeryGPT, a novel framework that advances the IFDL task by capturing high-order forensics knowledge correlations of forged images from diverse linguistic feature spaces, while enabling explainable generation and interactive dialogue through a newly customized Large Language Model (LLM) architecture. Specifically, ForgeryGPT enhances traditional LLMs by integrating the Mask-Aware Forgery Extractor, which enables the excavating of precise forgery mask information from input images and facilitating pixel-level understanding of tampering artifacts. The Mask-Aware Forgery Extractor consists of a Forgery Localization Expert (FL-Expert) and a Mask Encoder, where the FL-Expert is augmented with an Object-agnostic Forgery Prompt and a Vocabulary-enhanced Vision Encoder, allowing for effectively capturing of multi-scale fine-grained forgery details. To enhance its performance, we implement a three-stage training strategy, supported by our designed Mask-Text Alignment and IFDL Task-Specific Instruction Tuning datasets, which align vision-language modalities and improve forgery detection and instruction-following capabilities. Extensive experiments demonstrate the effectiveness of the proposed method.