Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection
作者: Kaiqing Lin, Zhiyuan Yan, Ruoxin Chen, Junyan Ye, Ke-Yue Zhang, Yue Zhou, Peng Jin, Bin Li, Taiping Yao, Shouhong Ding
分类: cs.CV
发布日期: 2025-09-29
💡 一句话要点
提出Forensic-Chat框架,解决多模态大语言模型在伪造图像检测中泛化性和可解释性不足的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 伪造图像检测 多模态大语言模型 可解释性 视觉感知 先看后推理
📋 核心要点
- 现有MLLMs在伪造图像检测中表现不佳,原因是视觉编码器对伪造痕迹不敏感,且微调数据与预训练数据分布差异大。
- 论文提出“先看后推理”的范式,即先训练MLLMs感知伪影,再进行推理,从而提升检测性能。
- 论文提出了Forensic-Chat框架和ExplainFake-Bench基准,实验证明了该框架的泛化性和可解释性。
📝 摘要(中文)
本文关注使用多模态大语言模型(MLLMs)检测AI生成的图像,由于其丰富的世界知识、常识推理和潜在的可解释性,该方法越来越受到关注。然而,直接应用这些MLLMs进行检测通常会导致次优的性能。我们认为,这种失败的根源在于一个根本性的不匹配:MLLMs在真正“看到”伪造图像之前就被要求对其进行推理。现有的MLLMs的视觉编码器主要针对语义识别进行优化,对低级信号的感知不敏感,导致它们对细微的伪造痕迹不敏感。因此,模型基于不完整和有限的视觉观察进行判断。此外,现有的检测微调数据通常使用狭窄的指令式格式,与预训练中看到的多样化、异构分布截然不同。在缺乏有意义的视觉线索的情况下,模型会利用这些语言捷径,导致灾难性地遗忘预训练知识。为此,我们提倡一种新的范式:“先看后推理”。我们提出,应该首先训练MLLMs来感知伪影,从而加强它们对伪影的视觉感知,以便后续的推理能够建立在实际的观察之上。因此,我们提出了Forensic-Chat,一个通用、可解释且仍然具有对话能力的(用于多轮对话)伪造图像检测助手。我们还提出了ExplainFake-Bench,一个专门用于评估MLLM在图像取证方面可解释性的基准,从五个关键方面进行评估。大量的实验表明了其泛化性和真正可靠的可解释性的优越性。
🔬 方法详解
问题定义:现有方法直接使用多模态大语言模型(MLLMs)进行伪造图像检测,但由于MLLMs的视觉编码器主要针对语义识别优化,对伪造图像中存在的低级伪影信号不敏感,导致检测性能不佳。此外,用于微调MLLMs的数据集通常是指令式的,与预训练数据分布差异较大,导致模型灾难性地遗忘预训练知识。
核心思路:论文的核心思路是“先看后推理”,即首先训练MLLMs来感知伪影,增强其对伪造图像中低级信号的感知能力,然后再进行推理。这样可以使模型基于实际的视觉观察进行判断,避免依赖语言捷径,从而提高检测的准确性和泛化性。
技术框架:论文提出了Forensic-Chat框架,该框架包含一个经过专门训练的视觉编码器,用于提取伪造图像中的伪影特征。该编码器与一个大型语言模型(LLM)相结合,LLM负责进行推理和生成解释。此外,论文还提出了ExplainFake-Bench基准,用于评估MLLM在图像取证方面的可解释性。
关键创新:论文最重要的技术创新点在于“先看后推理”的范式,它改变了以往直接使用MLLMs进行伪造图像检测的方法,强调了视觉感知的重要性。通过专门训练视觉编码器来感知伪影,可以显著提高模型对伪造图像的敏感度,从而提高检测的准确性和泛化性。与现有方法相比,该方法更加注重视觉信息的利用,避免了模型过度依赖语言信息。
关键设计:Forensic-Chat框架的关键设计包括:1) 使用专门的数据集训练视觉编码器,使其能够有效地提取伪造图像中的伪影特征;2) 设计合适的损失函数,鼓励视觉编码器学习到对伪影敏感的特征表示;3) 将视觉编码器与LLM进行有效集成,使LLM能够充分利用视觉信息进行推理;4) 设计ExplainFake-Bench基准,用于全面评估模型的可解释性,包括五个关键方面。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Forensic-Chat框架在伪造图像检测任务上取得了显著的性能提升,尤其是在泛化性和可解释性方面。与现有方法相比,Forensic-Chat能够更好地检测不同类型的伪造图像,并提供更可靠的解释。在ExplainFake-Bench基准上,Forensic-Chat在多个指标上都优于其他基线方法。
🎯 应用场景
该研究成果可应用于各种需要检测AI生成图像的场景,例如社交媒体平台的内容审核、新闻媒体的真实性验证、以及金融领域的欺诈检测等。通过提高伪造图像检测的准确性和可解释性,有助于维护网络安全和社会稳定,并为未来的图像取证技术发展提供参考。
📄 摘要(原文)
Detecting AI-generated images with multimodal large language models (MLLMs) has gained increasing attention, due to their rich world knowledge, common-sense reasoning, and potential for explainability. However, naively applying those MLLMs for detection often leads to suboptimal performance. We argue that the root of this failure lies in a fundamental mismatch: MLLMs are asked to reason about fakes before they can truly see them. First, they do not really see: existing MLLMs' vision encoders are primarily optimized for semantic-oriented recognition rather than the perception of low-level signals, leaving them insensitive to subtle forgery traces. Without access to reliable perceptual evidence, the model grounds its judgment on incomplete and limited visual observations. Second, existing finetuning data for detection typically uses narrow, instruction-style formats, which diverge sharply from the diverse, heterogeneous distributions seen in pretraining. In the absence of meaningful visual cues, the model therefore exploits these linguistic shortcuts, resulting in catastrophic forgetting of pretrained knowledge (even the basic dialogue capabilities). In response, we advocate for a new paradigm: seeing before reasoning. We propose that MLLMs should first be trained to perceive artifacts-strengthening their artifact-aware visual perception-so that subsequent reasoning is grounded in actual observations. We therefore propose Forensic-Chat, a generalizable, explainable, and still-conversational (for multi-round dialogue) assistant for fake image detection. We also propose ExplainFake-Bench, a benchmark tailored for the evaluation of the MLLM's explainability for image forensics from five key aspects. Extensive experiments show its superiority of generalization and genuinely reliable explainability.