VIGIL: Part-Grounded Structured Reasoning for Generalizable Deepfake Detection

📄 arXiv: 2603.21526v1 📥 PDF

作者: Xinghan Li, Junhao Xu, Jingjing Chen

分类: cs.CV

发布日期: 2026-03-23

备注: Project Page: https://vigil.best


💡 一句话要点

VIGIL:基于部件定位的结构化推理,提升深度伪造检测的泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 多模态大语言模型 结构化推理 部件定位 泛化性

📋 核心要点

  1. 现有基于多模态大语言模型(MLLM)的深度伪造检测方法将证据生成和篡改定位融合,导致结论不可靠。
  2. VIGIL框架模拟专家取证流程,先规划检测部件,再独立检查,避免外部证据干扰部件选择。
  3. OmniFake基准和实验结果表明,VIGIL在泛化性上优于专家检测器和现有MLLM方法。

📝 摘要(中文)

本文提出了一种名为VIGIL的、以部件为中心的结构化取证框架,用于提升深度伪造检测的可解释性和泛化性。该框架受到专家取证实践的启发,采用“计划-检查”流程:模型首先基于全局视觉线索规划需要检查的面部部件,然后利用独立来源的取证证据检查每个部件。一个阶段门控注入机制仅在检查期间传递部件级取证证据,确保部件选择由模型自身的感知驱动,而非受外部信号偏置。此外,本文还提出了一种渐进式三阶段训练范式,其强化学习阶段采用部件感知奖励,以增强解剖学有效性和证据-结论一致性。为了实现严格的泛化性评估,本文构建了OmniFake,一个分层5级基准。实验结果表明,VIGIL在OmniFake和跨数据集评估中,始终优于专家检测器和现有的基于MLLM的方法。

🔬 方法详解

问题定义:现有基于多模态大语言模型(MLLM)的深度伪造检测方法,通常将证据生成和篡改定位融合在一个步骤中。这种融合模糊了可信观察和虚假解释之间的界限,导致模型容易产生幻觉,做出不可靠的判断。现有方法缺乏对伪造痕迹的细粒度分析,难以应对复杂和未知的伪造技术,泛化能力较差。

核心思路:VIGIL的核心思路是模仿专家进行深度伪造检测的流程,采用“计划-检查”的结构化推理方式。模型首先根据全局视觉信息确定需要重点检查的面部部件,然后针对每个部件独立地搜集和分析取证证据。这种分而治之的策略能够更准确地定位伪造痕迹,并减少幻觉的产生。

技术框架:VIGIL框架包含以下几个主要模块:1) 部件选择模块:基于全局视觉线索,选择需要检查的面部部件。2) 证据搜集模块:为每个选定的部件独立搜集取证证据。3) 部件检查模块:利用搜集到的证据,对每个部件进行详细检查,判断是否存在伪造痕迹。4) 结论生成模块:综合各个部件的检查结果,生成最终的检测结论。框架采用阶段门控注入机制,确保部件选择不受外部证据的干扰。

关键创新:VIGIL的关键创新在于其结构化的推理流程和部件感知的证据注入机制。与现有方法相比,VIGIL将证据生成和篡改定位解耦,避免了信息混淆和幻觉的产生。阶段门控注入机制保证了部件选择的客观性,提高了检测的准确性。此外,论文还提出了一个渐进式三阶段训练范式,并设计了部件感知的奖励函数,进一步提升了模型的性能。

关键设计:VIGIL的训练过程分为三个阶段:1) 预训练阶段:使用大规模数据集预训练模型,使其具备基本的视觉理解和推理能力。2) 微调阶段:使用深度伪造数据集微调模型,使其能够识别常见的伪造痕迹。3) 强化学习阶段:使用部件感知的奖励函数,训练模型进行结构化的推理,并增强证据-结论的一致性。奖励函数的设计考虑了解剖学有效性和证据相关性。OmniFake基准包含五个层级,从简单的生成器到真实的社交媒体数据,用于评估模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在OmniFake基准测试中,VIGIL在所有泛化级别上都优于专家检测器和现有的基于MLLM的方法。例如,在最复杂的“in-the-wild”社交媒体数据上,VIGIL的性能显著优于其他方法,表明其具有更强的泛化能力。此外,跨数据集评估也表明,VIGIL在不同数据集上都表现出一致的优越性。

🎯 应用场景

VIGIL框架可应用于各种需要检测深度伪造内容的场景,例如社交媒体平台、新闻媒体、金融安全等。该研究有助于提高深度伪造检测的准确性和可信度,减少虚假信息传播,维护社会安全和稳定。未来,该方法可以扩展到其他类型的多媒体内容,例如音频和视频,以应对日益复杂的深度伪造技术。

📄 摘要(原文)

Multimodal large language models (MLLMs) offer a promising path toward interpretable deepfake detection by generating textual explanations. However, the reasoning process of current MLLM-based methods combines evidence generation and manipulation localization into a unified step. This combination blurs the boundary between faithful observations and hallucinated explanations, leading to unreliable conclusions. Building on this, we present VIGIL, a part-centric structured forensic framework inspired by expert forensic practice through a plan-then-examine pipeline: the model first plans which facial parts warrant inspection based on global visual cues, then examines each part with independently sourced forensic evidence. A stage-gated injection mechanism delivers part-level forensic evidence only during examination, ensuring that part selection remains driven by the model's own perception rather than biased by external signals. We further propose a progressive three-stage training paradigm whose reinforcement learning stage employs part-aware rewards to enforce anatomical validity and evidence--conclusion coherence. To enable rigorous generalizability evaluation, we construct OmniFake, a hierarchical 5-Level benchmark where the model, trained on only three foundational generators, is progressively tested up to in-the-wild social-media data. Extensive experiments on OmniFake and cross-dataset evaluations demonstrate that VIGIL consistently outperforms both expert detectors and concurrent MLLM-based methods across all generalizability levels.