FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics

作者: Yixuan Li, Yu Tian, Yipo Huang, Wei Lu, Shiqi Wang, Weisi Lin, Anderson Rocha

分类: cs.CV

发布日期: 2025-03-31

💡 一句话要点

提出FakeScope：用于透明AI生成图像取证的大型多模态专家模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成图像取证 多模态学习 大型语言模型 可解释性AI 零样本学习

📋 核心要点

现有AI图像检测模型侧重于分类，缺乏可解释性和上下文感知能力，难以满足对图像真实性深入分析的需求。
FakeScope通过构建FakeChain和FakeInstruct数据集，训练大型多模态模型，实现高精度AI生成图像检测和可解释的取证分析。
FakeScope在封闭式和开放式取证场景中均达到SOTA性能，并展现出强大的零样本定量检测能力和泛化能力。

📝 摘要（中文）

生成式人工智能的快速发展是一把双刃剑，它在促进前所未有的创造力的同时，也助长了极具欺骗性的内容的生成，从而削弱了社会信任。随着图像生成技术日益复杂，检测合成图像不再仅仅是一个二元分类任务，它需要可解释的、上下文感知的、能够增强信任和透明度的方法。然而，现有的检测模型主要侧重于分类，对图像的真实性提供的解释性见解有限。本文提出了FakeScope，一个为AI生成图像取证定制的专家多模态模型（LMM），它不仅能以高精度识别AI合成图像，还能提供丰富的、可解释的、查询驱动的取证见解。我们首先构建了FakeChain数据集，该数据集包含基于视觉痕迹证据的语言真实性推理，并通过一种新颖的人机协作框架开发。在此基础上，我们进一步提出了FakeInstruct，这是最大的多模态指令调优数据集，包含200万条视觉指令，旨在增强LMM中的取证意识。FakeScope在封闭式和开放式取证场景中都实现了最先进的性能。它可以高精度地区分合成图像，同时提供连贯而深刻的解释，对细粒度的伪造属性进行自由讨论，并提供可操作的增强策略。值得注意的是，尽管FakeScope仅在定性的硬标签上进行训练，但通过我们提出的基于token的概率估计策略，它在检测方面表现出了卓越的零样本定量能力。此外，FakeScope还表现出强大的泛化能力和在野外环境中的应用能力，确保了其在现实场景中的适用性。

🔬 方法详解

问题定义：当前AI生成图像检测模型主要关注二元分类，即判断图像是真或假。然而，随着生成技术的进步，仅仅判断真假已经不够，更需要理解图像的生成过程、篡改痕迹以及潜在的欺骗手段。现有方法缺乏可解释性，无法提供深入的取证分析，难以满足用户对透明度和信任的需求。

核心思路：FakeScope的核心思路是利用大型多模态模型（LMM）的强大能力，结合视觉信息和语言推理，实现对AI生成图像的全面取证分析。通过构建包含视觉证据和语言描述的数据集，训练LMM理解图像中的伪造痕迹，并生成可解释的分析报告。这种方法旨在提高AI生成图像检测的透明度和可信度。

技术框架：FakeScope的整体框架包含以下几个主要阶段：1) 数据构建：构建FakeChain数据集，包含视觉痕迹证据和语言真实性推理。构建FakeInstruct数据集，包含200万条视觉指令，用于增强LMM的取证意识。2) 模型训练：使用FakeChain和FakeInstruct数据集对LMM进行训练，使其具备识别AI生成图像和进行取证分析的能力。3) 推理和分析：对于给定的图像，LMM生成可解释的分析报告，包括图像的真实性判断、伪造痕迹的描述以及潜在的欺骗手段。4) 概率估计：提出基于token的概率估计策略，使模型具备零样本定量检测能力。

关键创新：FakeScope的关键创新在于：1) FakeChain和FakeInstruct数据集：这两个数据集的构建为训练具备取证分析能力的LMM提供了必要的数据支持。2) 基于token的概率估计策略：该策略使得模型能够在没有定量标签的情况下进行定量检测，极大地提高了模型的泛化能力。3) 多模态融合：FakeScope充分利用了视觉信息和语言推理，实现了对AI生成图像的全面取证分析，超越了传统的二元分类方法。

关键设计：FakeScope的关键设计包括：1) 人机协作的数据构建框架：该框架保证了FakeChain数据集的质量和多样性。2) 大规模的FakeInstruct数据集：200万条视觉指令能够有效地增强LMM的取证意识。3) 基于Transformer的LMM架构：Transformer架构能够有效地处理视觉信息和语言信息，并实现多模态融合。4) Token-based概率估计：通过计算每个token的概率，实现对图像真实性的定量评估。

🖼️ 关键图片

📊 实验亮点

FakeScope在封闭式和开放式取证场景中均取得了SOTA性能。通过token-based概率估计策略，FakeScope在仅使用定性标签训练的情况下，实现了出色的零样本定量检测能力。此外，FakeScope还展现出强大的泛化能力和在野外环境中的应用能力，证明了其在实际场景中的有效性。

🎯 应用场景

FakeScope可应用于新闻媒体、社交平台、司法鉴定等领域，用于检测和分析AI生成的虚假图像，维护社会信任和信息安全。该研究有助于提高公众对AI生成内容的辨别能力，减少虚假信息传播带来的负面影响，并为未来的AI安全研究提供借鉴。

📄 摘要（原文）

The rapid and unrestrained advancement of generative artificial intelligence (AI) presents a double-edged sword: while enabling unprecedented creativity, it also facilitates the generation of highly convincing deceptive content, undermining societal trust. As image generation techniques become increasingly sophisticated, detecting synthetic images is no longer just a binary task: it necessitates interpretable, context-aware methodologies that enhance trustworthiness and transparency. However, existing detection models primarily focus on classification, offering limited explanatory insights into image authenticity. In this work, we propose FakeScope, an expert multimodal model (LMM) tailored for AI-generated image forensics, which not only identifies AI-synthetic images with high accuracy but also provides rich, interpretable, and query-driven forensic insights. We first construct FakeChain dataset that contains linguistic authenticity reasoning based on visual trace evidence, developed through a novel human-machine collaborative framework. Building upon it, we further present FakeInstruct, the largest multimodal instruction tuning dataset containing 2 million visual instructions tailored to enhance forensic awareness in LMMs. FakeScope achieves state-of-the-art performance in both closed-ended and open-ended forensic scenarios. It can distinguish synthetic images with high accuracy while offering coherent and insightful explanations, free-form discussions on fine-grained forgery attributes, and actionable enhancement strategies. Notably, despite being trained exclusively on qualitative hard labels, FakeScope demonstrates remarkable zero-shot quantitative capability on detection, enabled by our proposed token-based probability estimation strategy. Furthermore, FakeScope exhibits strong generalization and in-the-wild ability, ensuring its applicability in real-world scenarios.

FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理