Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection

📄 arXiv: 2512.16300 📥 PDF

作者: Fanrui Zhang, Qiang Zhang, Sizhuo Zhou, Jianwen Sun, Chuanhao Li, Jiaxin Ai, Yukang Feng, Yujie Zhang, Wenjie Li, Zizhen Li, Yifan Chang, Jiawei Liu, Kaipeng Zhang

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出ForenAgent,利用Agentic工具进行图像伪造检测,实现更灵活可解释的分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像伪造检测 多模态大语言模型 Agentic工具 可解释性 强化学习

📋 核心要点

  1. 现有图像伪造检测方法难以有效融合低级伪影和高级语义知识,限制了检测性能。
  2. ForenAgent通过让MLLM自主生成和执行低级工具,实现灵活且可解释的伪造分析。
  3. FABench数据集和实验结果表明,ForenAgent在图像伪造检测任务中展现出强大的工具使用和推理能力。

📝 摘要(中文)

现有的图像伪造检测(IFD)方法要么利用低级、语义无关的伪影,要么依赖于具有高级语义知识的多模态大型语言模型(MLLM)。这两种信息流在范式和推理上都高度异构,使得现有方法难以统一它们或有效地建模它们的跨层交互。为了解决这个差距,我们提出了ForenAgent,一个多轮交互的IFD框架,使MLLM能够自主生成、执行和迭代地改进围绕检测目标的基于Python的低级工具,从而实现更灵活和可解释的伪造分析。ForenAgent遵循一个结合冷启动和强化微调的两阶段训练流程,以逐步增强其工具交互能力和推理适应性。受到人类推理的启发,我们设计了一个动态推理循环,包括全局感知、局部聚焦、迭代探测和整体判断,并将其实例化为数据采样策略和任务对齐的过程奖励。为了系统地训练和评估,我们构建了FABench,一个异构的、高质量的agent-forensics数据集,包含10万张图像和大约20万个agent交互问答对。实验表明,在低级工具的辅助下,ForenAgent在具有挑战性的IFD任务中表现出涌现的工具使用能力和反思性推理,为通用IFD开辟了一条有希望的道路。代码将在审查过程完成后发布。

🔬 方法详解

问题定义:现有图像伪造检测方法主要存在两个问题:一是依赖低级特征,缺乏语义理解;二是依赖多模态大语言模型,但难以有效利用低级特征。这两种信息流的异构性导致现有方法难以统一和建模它们的跨层交互,从而限制了检测的准确性和可解释性。

核心思路:ForenAgent的核心思路是利用多模态大语言模型(MLLM)作为智能体,使其能够自主生成、执行和迭代优化基于Python的低级工具,从而实现对图像伪造的更灵活和可解释的分析。通过赋予MLLM使用工具的能力,弥合了低级特征和高级语义之间的鸿沟。

技术框架:ForenAgent的整体框架包含以下几个主要模块:1) 全局感知:MLLM首先对输入图像进行全局感知,理解图像的整体内容和潜在的伪造区域。2) 局部聚焦:根据全局感知的结果,MLLM选择性地聚焦于图像中可能存在伪造的局部区域。3) 迭代探测:MLLM生成并执行Python工具,对聚焦区域进行详细的分析和探测,例如边缘检测、噪声分析等。4) 整体判断:MLLM综合分析工具执行的结果,做出最终的伪造判断。该框架采用多轮交互的方式,MLLM可以根据前一轮的结果调整后续的工具选择和执行策略。

关键创新:ForenAgent的关键创新在于将多模态大语言模型与低级图像处理工具相结合,构建了一个可自主进行图像伪造检测的智能体。这种方法不仅能够利用MLLM的语义理解能力,还能够借助低级工具进行精细的分析,从而提高了检测的准确性和可解释性。此外,动态推理循环的设计,模拟了人类的推理过程,进一步提升了智能体的推理能力。

关键设计:ForenAgent的训练分为两个阶段:冷启动和强化微调。冷启动阶段使用FABench数据集进行预训练,使MLLM初步具备工具使用能力。强化微调阶段则通过设计任务对齐的过程奖励,引导MLLM学习更有效的工具交互策略。FABench数据集包含10万张图像和20万个agent交互问答对,为智能体的训练提供了充足的数据支持。动态推理循环被实例化为数据采样策略和任务对齐的过程奖励,用于指导智能体的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ForenAgent在图像伪造检测任务中取得了显著的性能提升。通过与现有方法进行对比,ForenAgent在多个指标上均优于基线模型,尤其是在处理复杂伪造场景时,其优势更加明显。此外,实验还验证了ForenAgent的工具使用能力和反思性推理能力,证明了其在通用图像伪造检测方面的潜力。

🎯 应用场景

ForenAgent在数字取证、新闻真实性验证、社交媒体内容审核等领域具有广泛的应用前景。它可以帮助专业人员更高效地检测图像伪造,提高信息的可信度,并减少虚假信息传播带来的负面影响。未来,该技术有望应用于视频伪造检测等更复杂的场景。

📄 摘要(原文)

Existing image forgery detection (IFD) methods either exploit low-level, semantics-agnostic artifacts or rely on multimodal large language models (MLLMs) with high-level semantic knowledge. Although naturally complementary, these two information streams are highly heterogeneous in both paradigm and reasoning, making it difficult for existing methods to unify them or effectively model their cross-level interactions. To address this gap, we propose ForenAgent, a multi-round interactive IFD framework that enables MLLMs to autonomously generate, execute, and iteratively refine Python-based low-level tools around the detection objective, thereby achieving more flexible and interpretable forgery analysis. ForenAgent follows a two-stage training pipeline combining Cold Start and Reinforcement Fine-Tuning to enhance its tool interaction capability and reasoning adaptability progressively. Inspired by human reasoning, we design a dynamic reasoning loop comprising global perception, local focusing, iterative probing, and holistic adjudication, and instantiate it as both a data-sampling strategy and a task-aligned process reward. For systematic training and evaluation, we construct FABench, a heterogeneous, high-quality agent-forensics dataset comprising 100k images and approximately 200k agent-interaction question-answer pairs. Experiments show that ForenAgent exhibits emergent tool-use competence and reflective reasoning on challenging IFD tasks when assisted by low-level tools, charting a promising route toward general-purpose IFD. The code will be released after the review process is completed.