FakeVLM-R1: Internalizing Physical Laws via CoT for Synthetic Image Detection
作者: Leqi Zhu, Junyan Ye, Kaiqing Lin, Zhiyuan Yan, Conghui He, Weijia Li
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
FakeVLM-R1:通过思维链和物理规律内化提升合成图像检测能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成图像检测 大型多模态模型 批判性思维链 物理规律 因果推理
📋 核心要点
- 现有基于LMMs的合成图像检测方法依赖模仿学习,缺乏因果推理,易产生解释性幻觉。
- FakeVLM-R1通过集成GRPO和批判性思维链(CoT),赋予模型类似人类的批判性思维能力。
- FakeVLM-R1在多个基准测试中达到SOTA,解决了过拒真图问题,提升了泛化性和鲁棒性。
📝 摘要(中文)
生成式人工智能技术的发展使合成图像的视觉逼真度达到了前所未有的水平。目前基于大型多模态模型(LMMs)的可解释检测方法取得了一定进展,但它们仍然依赖于从大量伪造数据中获得的模仿学习,缺乏真正的因果推理能力,容易产生解释性幻觉。为了克服这个瓶颈,我们提出了FakeVLM-R1,旨在赋予模型在执行合成检测任务时类似人类的批判性思维能力。该框架建立在监督微调(SFT)的基础上,集成了群体相对策略优化(GRPO)和批判性思维链(CoT)机制。在推理阶段,模型执行“双向辩证推理”过程:在提出伪造假设的同时,必须同时调用物理常识来构建真实性反证。此外,我们构建了具有高质量样本的FakeClue++数据集,该数据集广泛引入了由真实图像的物理定律指导的注释,为模型提供统一的真实性锚点。实验证实,FakeVLM-R1在多个基准测试中实现了SOTA性能,不仅实现了高精度、逻辑可解释的检测,而且解决了现有方法对真实图像的过度拒绝偏差,展示了泛化性和抗扰动性。
🔬 方法详解
问题定义:论文旨在解决现有基于大型多模态模型(LMMs)的合成图像检测方法依赖于模仿学习,缺乏真正的因果推理能力,容易产生解释性幻觉的问题。现有方法过度依赖伪造数据,导致模型无法有效区分真实图像和合成图像,并且容易对真实图像产生过度拒绝的偏差。
核心思路:论文的核心思路是赋予模型类似人类的批判性思维能力,使其在检测合成图像时能够进行因果推理和逻辑判断。具体来说,模型在提出图像是伪造的假设时,需要同时调用物理常识来构建图像是真实的证据,从而进行双向辩证推理。这种方式可以帮助模型更好地理解图像的物理属性,从而更准确地判断图像的真伪。
技术框架:FakeVLM-R1框架建立在监督微调(SFT)的基础上,主要包含以下几个模块:1) 基础LMM:使用预训练的LMM作为基础模型。2) 批判性思维链(CoT)机制:引导模型生成推理过程,解释其判断图像真伪的依据。3) 群体相对策略优化(GRPO):用于优化模型的推理能力,使其能够更好地进行双向辩证推理。4) FakeClue++数据集:包含高质量的合成图像和真实图像,并带有基于物理规律的注释,为模型提供真实性锚点。在推理阶段,模型首先提出一个伪造假设,然后调用物理常识构建真实性反证,最终综合两方面的信息做出判断。
关键创新:论文的关键创新在于引入了批判性思维链(CoT)机制和群体相对策略优化(GRPO),使模型能够进行双向辩证推理。与现有方法相比,FakeVLM-R1不再仅仅依赖于模仿学习,而是能够基于物理常识进行因果推理,从而更准确地判断图像的真伪。此外,FakeClue++数据集的构建也为模型提供了高质量的训练数据,进一步提升了模型的性能。
关键设计:FakeVLM-R1的关键设计包括:1) CoT提示词的设计,用于引导模型生成推理过程。2) GRPO的奖励函数设计,用于优化模型的推理能力。3) FakeClue++数据集中物理规律注释的设计,用于为模型提供真实性锚点。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
FakeVLM-R1在多个基准测试中取得了SOTA性能,表明其在合成图像检测方面具有显著优势。该方法不仅提高了检测精度,还解决了现有方法对真实图像的过度拒绝偏差,提升了模型的泛化性和鲁棒性。具体的性能数据和对比基线在论文中未详细给出,属于未知信息。
🎯 应用场景
该研究成果可应用于网络安全、新闻媒体、知识产权保护等领域,用于检测和识别伪造图像,防止虚假信息传播和侵权行为。未来,该技术有望进一步发展,应用于视频、音频等更多模态的伪造内容检测,为构建可信赖的网络环境提供技术支撑。
📄 摘要(原文)
The development of generative artificial intelligence technologies has propelled the visual realism of synthetic images to an unprecedented level. Although current interpretable detection methods based on Large Multimodal Models (LMMs) have made certain progress, they still rely on imitation learning derived from massive volumes of forged data. Consequently, they lack genuine causal reasoning capabilities and are prone to explanatory hallucinations. To overcome this bottleneck, we propose FakeVLM-R1, aiming to endow the model with human-like critical thinking capabilities when performing synthetic detection tasks. Building upon Supervised Fine-Tuning (SFT), this framework integrates Group Relative Policy Optimization (GRPO) with a Critical Thinking Chain-of-Thought (CoT) mechanism. During the inference phase, the model executes a "bidirectional dialectical reasoning" process: while proposing a forgery hypothesis, it must simultaneously invoke physical commonsense to construct an authenticity counter-proof. Furthermore, we constructed the FakeClue++ dataset with high-quality samples, which extensively introduces annotations guided by the physical laws of authentic images, providing a unified authenticity anchor for the model. Experiments confirm that FakeVLM-R1 achieves SOTA performance the evaluated models across multiple benchmarks. It not only achieves high-precision, logically interpretable detection but also resolves the over-rejection bias of existing methods against real images, demonstrating generalization and robustness against perturbations.