VIGIL: Part-Grounded Structured Reasoning for Generalizable Deepfake Detection

作者: Xinghan Li, Junhao Xu, Jingjing Chen

分类: cs.CV

发布日期: 2026-03-23

备注: Project Page: https://vigil.best

💡 一句话要点

VIGIL：基于部件定位的结构化推理，提升深度伪造检测的泛化性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 多模态大语言模型 结构化推理 部件定位 泛化性

📋 核心要点

现有基于多模态大语言模型（MLLM）的深度伪造检测方法将证据生成和篡改定位融合，导致结论不可靠。
VIGIL框架模拟专家取证流程，先规划检测部件，再独立检查，避免外部证据干扰部件选择。
OmniFake基准和实验结果表明，VIGIL在泛化性上优于专家检测器和现有MLLM方法。

📝 摘要（中文）

本文提出了一种名为VIGIL的、以部件为中心的结构化取证框架，用于提升深度伪造检测的可解释性和泛化性。该框架受到专家取证实践的启发，采用“计划-检查”流程：模型首先基于全局视觉线索规划需要检查的面部部件，然后利用独立来源的取证证据检查每个部件。一个阶段门控注入机制仅在检查期间传递部件级取证证据，确保部件选择由模型自身的感知驱动，而非受外部信号偏置。此外，本文还提出了一种渐进式三阶段训练范式，其强化学习阶段采用部件感知奖励，以增强解剖学有效性和证据-结论一致性。为了实现严格的泛化性评估，本文构建了OmniFake，一个分层5级基准。实验结果表明，VIGIL在OmniFake和跨数据集评估中，始终优于专家检测器和现有的基于MLLM的方法。

🔬 方法详解

问题定义：现有基于多模态大语言模型（MLLM）的深度伪造检测方法，通常将证据生成和篡改定位融合在一个步骤中。这种融合模糊了可信观察和虚假解释之间的界限，导致模型容易产生幻觉，做出不可靠的判断。现有方法缺乏对伪造痕迹的细粒度分析，难以应对复杂和未知的伪造技术，泛化能力较差。

核心思路：VIGIL的核心思路是模仿专家进行深度伪造检测的流程，采用“计划-检查”的结构化推理方式。模型首先根据全局视觉信息确定需要重点检查的面部部件，然后针对每个部件独立地搜集和分析取证证据。这种分而治之的策略能够更准确地定位伪造痕迹，并减少幻觉的产生。

技术框架：VIGIL框架包含以下几个主要模块：1) 部件选择模块：基于全局视觉线索，选择需要检查的面部部件。2) 证据搜集模块：为每个选定的部件独立搜集取证证据。3) 部件检查模块：利用搜集到的证据，对每个部件进行详细检查，判断是否存在伪造痕迹。4) 结论生成模块：综合各个部件的检查结果，生成最终的检测结论。框架采用阶段门控注入机制，确保部件选择不受外部证据的干扰。

关键创新：VIGIL的关键创新在于其结构化的推理流程和部件感知的证据注入机制。与现有方法相比，VIGIL将证据生成和篡改定位解耦，避免了信息混淆和幻觉的产生。阶段门控注入机制保证了部件选择的客观性，提高了检测的准确性。此外，论文还提出了一个渐进式三阶段训练范式，并设计了部件感知的奖励函数，进一步提升了模型的性能。

关键设计：VIGIL的训练过程分为三个阶段：1) 预训练阶段：使用大规模数据集预训练模型，使其具备基本的视觉理解和推理能力。2) 微调阶段：使用深度伪造数据集微调模型，使其能够识别常见的伪造痕迹。3) 强化学习阶段：使用部件感知的奖励函数，训练模型进行结构化的推理，并增强证据-结论的一致性。奖励函数的设计考虑了解剖学有效性和证据相关性。OmniFake基准包含五个层级，从简单的生成器到真实的社交媒体数据，用于评估模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

在OmniFake基准测试中，VIGIL在所有泛化级别上都优于专家检测器和现有的基于MLLM的方法。例如，在最复杂的“in-the-wild”社交媒体数据上，VIGIL的性能显著优于其他方法，表明其具有更强的泛化能力。此外，跨数据集评估也表明，VIGIL在不同数据集上都表现出一致的优越性。

🎯 应用场景

VIGIL框架可应用于各种需要检测深度伪造内容的场景，例如社交媒体平台、新闻媒体、金融安全等。该研究有助于提高深度伪造检测的准确性和可信度，减少虚假信息传播，维护社会安全和稳定。未来，该方法可以扩展到其他类型的多媒体内容，例如音频和视频，以应对日益复杂的深度伪造技术。

📄 摘要（原文）

Multimodal large language models (MLLMs) offer a promising path toward interpretable deepfake detection by generating textual explanations. However, the reasoning process of current MLLM-based methods combines evidence generation and manipulation localization into a unified step. This combination blurs the boundary between faithful observations and hallucinated explanations, leading to unreliable conclusions. Building on this, we present VIGIL, a part-centric structured forensic framework inspired by expert forensic practice through a plan-then-examine pipeline: the model first plans which facial parts warrant inspection based on global visual cues, then examines each part with independently sourced forensic evidence. A stage-gated injection mechanism delivers part-level forensic evidence only during examination, ensuring that part selection remains driven by the model's own perception rather than biased by external signals. We further propose a progressive three-stage training paradigm whose reinforcement learning stage employs part-aware rewards to enforce anatomical validity and evidence--conclusion coherence. To enable rigorous generalizability evaluation, we construct OmniFake, a hierarchical 5-Level benchmark where the model, trained on only three foundational generators, is progressively tested up to in-the-wild social-media data. Extensive experiments on OmniFake and cross-dataset evaluations demonstrate that VIGIL consistently outperforms both expert detectors and concurrent MLLM-based methods across all generalizability levels.

VIGIL: Part-Grounded Structured Reasoning for Generalizable Deepfake Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理