ForgeryGPT: A Multimodal LLM for Interpretable Image Forgery Detection and Localization

📄 arXiv: 2410.10238 📥 PDF

作者: Jiawei Liu, Fanrui Zhang, Jiaying Zhu, Esther Sun, Dong Li, Qiang Zhang, Zheng-Jun Zha

分类: cs.CV, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出ForgeryGPT,用于可解释的图像伪造检测与定位,并支持交互式对话。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像伪造检测 多模态学习 大型语言模型 可解释性 视觉推理

📋 核心要点

  1. 现有图像伪造检测方法侧重于低级特征,缺乏高阶语义理解和可解释性,难以满足实际需求。
  2. ForgeryGPT通过Mask-Aware Forgery Extractor提取精确伪造掩码,结合定制LLM实现可解释的伪造检测和交互式对话。
  3. 通过三阶段训练策略和专门设计的数据集,ForgeryGPT在伪造检测和指令遵循能力上取得了显著提升。

📝 摘要(中文)

多模态大型语言模型(MLLM),如GPT4o,在视觉推理和解释生成方面表现出强大的能力。然而,尽管有这些优势,它们在日益关键的图像伪造检测与定位(IFDL)任务中面临着重大挑战。此外,现有的IFDL方法通常仅限于学习低级语义无关的线索,并且只提供单一的结果判断。为了解决这些问题,我们提出了ForgeryGPT,这是一个新颖的框架,通过从不同的语言特征空间捕获伪造图像的高阶取证知识相关性来推进IFDL任务,同时通过新定制的大型语言模型(LLM)架构实现可解释的生成和交互式对话。具体来说,ForgeryGPT通过集成Mask-Aware Forgery Extractor来增强传统的LLM,从而能够从输入图像中挖掘精确的伪造掩码信息,并促进对篡改伪像的像素级理解。Mask-Aware Forgery Extractor由Forgery Localization Expert(FL-Expert)和Mask Encoder组成,其中FL-Expert通过Object-agnostic Forgery Prompt和Vocabulary-enhanced Vision Encoder进行增强,从而能够有效地捕获多尺度细粒度的伪造细节。为了提高其性能,我们实施了一个三阶段的训练策略,并由我们设计的Mask-Text Alignment和IFDL Task-Specific Instruction Tuning数据集支持,这些数据集对齐了视觉-语言模态,并提高了伪造检测和指令遵循能力。大量的实验证明了该方法的有效性。

🔬 方法详解

问题定义:图像伪造检测与定位(IFDL)旨在识别图像中被篡改的区域。现有方法主要依赖于低级语义无关的线索,例如噪声不一致性或边缘突变,缺乏对高阶取证知识的利用,并且通常只能提供单一的判断结果,缺乏可解释性。此外,MLLM在IFDL任务中的应用仍面临挑战。

核心思路:ForgeryGPT的核心思路是利用大型语言模型(LLM)的强大推理和生成能力,结合视觉信息,实现可解释的图像伪造检测与定位。通过引入Mask-Aware Forgery Extractor,从图像中提取精确的伪造掩码信息,并将其与文本描述相结合,从而实现对伪造区域的像素级理解和解释。

技术框架:ForgeryGPT的整体框架包括以下几个主要模块:1) Mask-Aware Forgery Extractor:负责从输入图像中提取伪造掩码信息,由Forgery Localization Expert (FL-Expert) 和 Mask Encoder组成。2) Large Language Model (LLM):用于生成伪造解释和支持交互式对话。3) 三阶段训练策略:包括Mask-Text Alignment和IFDL Task-Specific Instruction Tuning,用于对齐视觉-语言模态,并提高伪造检测和指令遵循能力。

关键创新:ForgeryGPT的关键创新在于Mask-Aware Forgery Extractor的设计,它能够从图像中挖掘精确的伪造掩码信息,并将其与文本描述相结合。此外,ForgeryGPT还通过定制的LLM架构,实现了可解释的伪造检测和交互式对话,这与现有方法仅提供单一判断结果的方式有本质区别。

关键设计:FL-Expert采用了Object-agnostic Forgery Prompt和Vocabulary-enhanced Vision Encoder,以有效地捕获多尺度细粒度的伪造细节。三阶段训练策略包括:1) 预训练FL-Expert以定位伪造区域;2) 使用Mask-Text Alignment数据集对齐视觉和语言模态;3) 使用IFDL Task-Specific Instruction Tuning数据集微调LLM,以提高伪造检测和指令遵循能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ForgeryGPT在图像伪造检测和定位任务上取得了显著的性能提升。通过与现有方法的对比,ForgeryGPT在检测精度和可解释性方面均表现出优势。具体性能数据在论文中给出,证明了所提出方法的有效性。

🎯 应用场景

ForgeryGPT可应用于数字取证、新闻真实性验证、社交媒体内容审核等领域。通过提供可解释的伪造检测结果,帮助用户识别和防范虚假信息,维护网络安全和信息安全。未来,该技术有望集成到自动化内容审核系统中,提高审核效率和准确性。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs), such as GPT4o, have shown strong capabilities in visual reasoning and explanation generation. However, despite these strengths, they face significant challenges in the increasingly critical task of Image Forgery Detection and Localization (IFDL). Moreover, existing IFDL methods are typically limited to the learning of low-level semantic-agnostic clues and merely provide a single outcome judgment. To tackle these issues, we propose ForgeryGPT, a novel framework that advances the IFDL task by capturing high-order forensics knowledge correlations of forged images from diverse linguistic feature spaces, while enabling explainable generation and interactive dialogue through a newly customized Large Language Model (LLM) architecture. Specifically, ForgeryGPT enhances traditional LLMs by integrating the Mask-Aware Forgery Extractor, which enables the excavating of precise forgery mask information from input images and facilitating pixel-level understanding of tampering artifacts. The Mask-Aware Forgery Extractor consists of a Forgery Localization Expert (FL-Expert) and a Mask Encoder, where the FL-Expert is augmented with an Object-agnostic Forgery Prompt and a Vocabulary-enhanced Vision Encoder, allowing for effectively capturing of multi-scale fine-grained forgery details. To enhance its performance, we implement a three-stage training strategy, supported by our designed Mask-Text Alignment and IFDL Task-Specific Instruction Tuning datasets, which align vision-language modalities and improve forgery detection and instruction-following capabilities. Extensive experiments demonstrate the effectiveness of the proposed method.