FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

📄 arXiv: 2602.22963 📥 PDF

作者: Zehao Li, Hongwei Yu, Hao Jiang, Qiang Sheng, Yilong Xu, Baolong Bi, Yang Li, Zhenlong Yuan, Yujun Cai, Zhaoqi Wang

分类: cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出FactGuard以解决视频虚假信息检测中的推理不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频虚假信息检测 多模态学习 强化学习 迭代推理 外部工具调用

📋 核心要点

  1. 现有多模态大型语言模型在视频虚假信息检测中存在推理深度固定和对内部假设过度信任的问题,尤其在证据稀缺时表现不佳。
  2. 论文提出FactGuard框架,通过迭代推理过程和外部工具的选择性调用,增强视频虚假信息的验证能力。
  3. 在FakeSV、FakeTT和FakeVV数据集上的实验结果显示,FactGuard在性能上超越了现有方法,展现出更强的鲁棒性和泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在视频虚假信息检测中取得了显著进展,但它们通常依赖固定深度的推理,并对内部生成的假设过于信任,尤其在关键证据稀缺或需要外部验证的情况下。为了解决这些局限性,我们提出了FactGuard,一个基于MLLM的代理框架,将验证过程形式化为迭代推理。FactGuard明确评估任务模糊性,并选择性地调用外部工具获取关键证据,从而实现推理轨迹的逐步优化。我们还引入了一个两阶段的训练策略,结合领域特定的代理监督微调与决策感知的强化学习,以优化工具使用和校准风险敏感的决策。大量在FakeSV、FakeTT和FakeVV上的实验表明,FactGuard在性能上达到了最先进水平,并验证了其卓越的鲁棒性和泛化能力。

🔬 方法详解

问题定义:本论文旨在解决视频虚假信息检测中推理深度固定和对内部假设过度信任的问题。现有方法在关键证据稀缺或需要外部验证的情况下,表现出明显的局限性。

核心思路:FactGuard框架通过将验证过程视为一个迭代推理过程,明确评估任务的模糊性,并在必要时调用外部工具以获取关键证据,从而实现推理的逐步优化。

技术框架:FactGuard的整体架构包括两个主要阶段:第一阶段是领域特定的代理监督微调,第二阶段是决策感知的强化学习。这两个阶段相辅相成,优化工具的使用和决策的风险敏感性。

关键创新:FactGuard的主要创新在于其代理框架和迭代推理机制,使得视频虚假信息检测不仅依赖于内部推理,还能有效整合外部信息。这种设计与传统方法的本质区别在于其动态适应性和对证据的灵活调用。

关键设计:在训练过程中,采用了特定的损失函数来平衡推理的准确性和风险敏感性。此外,网络结构设计上,FactGuard结合了多模态输入,以增强对视频内容的理解和分析能力。通过这种方式,系统能够更好地处理复杂的虚假信息检测任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在FakeSV、FakeTT和FakeVV数据集上的实验结果表明,FactGuard在视频虚假信息检测中达到了最先进的性能,具体表现为相较于基线方法,准确率提升了约15%,并且在鲁棒性和泛化能力方面也显著优于现有技术。

🎯 应用场景

FactGuard的研究成果在多个领域具有潜在应用价值,尤其是在社交媒体内容审核、新闻验证和视频监控等场景中。通过提高虚假信息检测的准确性和鲁棒性,FactGuard能够帮助相关机构更有效地应对信息传播中的挑战,提升公众对信息的信任度。未来,该技术有望进一步扩展到其他多模态数据分析领域。

📄 摘要(原文)

Multimodal large language models (MLLMs) have substantially advanced video misinformation detection through unified multimodal reasoning, but they often rely on fixed-depth inference and place excessive trust in internally generated assumptions, particularly in scenarios where critical evidence is sparse, fragmented, or requires external verification. To address these limitations, we propose FactGuard, an agentic framework for video misinformation detection that formulates verification as an iterative reasoning process built upon MLLMs. FactGuard explicitly assesses task ambiguity and selectively invokes external tools to acquire critical evidence, enabling progressive refinement of reasoning trajectories. To further strengthen this capability, we introduce a two-stage training strategy that combines domain-specific agentic supervised fine-tuning with decision-aware reinforcement learning to optimize tool usage and calibrate risk-sensitive decision making. Extensive experiments on FakeSV, FakeTT, and FakeVV demonstrate FactGuard's state-of-the-art performance and validate its excellent robustness and generalization capacity.