Multimodal Fact-Checking: An Agent-based Approach

📄 arXiv: 2512.22933v3 📥 PDF

作者: Danni Xu, Shaojing Fan, Harry Cheng, Mohan Kankanhalli

分类: cs.AI, cs.CL

发布日期: 2025-12-28 (更新: 2026-01-04)

备注: Code and dataset will be released at https://github.com/xudanni0927/AgentFact


💡 一句话要点

提出AgentFact:一种基于Agent的多模态事实核查框架,并构建高质量数据集RW-Post。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态事实核查 Agent 大型语言模型 知识图谱 证据检索

📋 核心要点

  1. 现有方法在多模态事实核查中面临推理能力不足和证据利用不充分的挑战,限制了其准确性和可解释性。
  2. AgentFact框架通过模拟人类验证流程,利用多个Agent协同完成策略规划、证据检索、视觉分析、推理和解释生成等子任务。
  3. 实验结果表明,AgentFact框架结合RW-Post数据集,显著提升了多模态事实核查的准确性和可解释性。

📝 摘要(中文)

多模态虚假信息的快速传播对自动事实核查系统提出了日益严峻的挑战。现有方法,包括大型视觉语言模型(LVLMs)和深度多模态融合方法,由于推理能力有限和证据利用不足,常常表现不佳。一个关键瓶颈是缺乏专门的数据集,这些数据集应提供完整的真实世界多模态虚假信息实例,并附带带注释的推理过程和可验证的证据。为了解决这一限制,我们引入了RW-Post,这是一个高质量且可解释的真实世界多模态事实核查数据集。RW-Post将真实世界的多模态声明与其原始社交媒体帖子对齐,保留了声明产生的丰富上下文信息。此外,该数据集还包括详细的推理和明确链接的证据,这些证据是通过大型语言模型辅助提取管道从人工编写的事实核查文章中获得的,从而实现了全面的验证和解释。基于RW-Post,我们提出了AgentFact,一个基于Agent的多模态事实核查框架,旨在模拟人类验证工作流程。AgentFact由五个专门的Agent组成,它们协同处理关键的事实核查子任务,包括策略规划、高质量证据检索、视觉分析、推理和解释生成。这些Agent通过迭代工作流程进行协调,该工作流程在证据搜索和任务感知的证据过滤和推理之间交替进行,从而促进战略决策和系统证据分析。大量的实验结果表明,RW-Post和AgentFact之间的协同作用大大提高了多模态事实核查的准确性和可解释性。

🔬 方法详解

问题定义:当前多模态事实核查面临的挑战是现有方法推理能力有限,无法充分利用证据,并且缺乏高质量、包含推理过程和可验证证据的数据集。现有方法,如大型视觉语言模型和深度多模态融合方法,在处理复杂的多模态信息时表现不佳。

核心思路:AgentFact的核心思路是模仿人类事实核查的工作流程,将复杂的多模态事实核查任务分解为多个子任务,并为每个子任务设计专门的Agent。通过Agent之间的协同工作和迭代优化,实现更准确、更可解释的事实核查。

技术框架:AgentFact框架包含五个主要Agent:策略规划Agent、高质量证据检索Agent、视觉分析Agent、推理Agent和解释生成Agent。这些Agent通过迭代工作流程进行协调,首先由策略规划Agent制定核查策略,然后证据检索Agent根据策略检索相关证据,视觉分析Agent分析图像内容,推理Agent基于证据进行推理判断,最后解释生成Agent生成核查结果的解释。

关键创新:AgentFact的关键创新在于其基于Agent的架构,它将复杂的事实核查任务分解为多个可管理的子任务,并为每个子任务设计专门的Agent。这种模块化的设计使得系统更易于理解和维护,并且可以灵活地调整和扩展。此外,AgentFact通过迭代工作流程,实现了证据搜索和任务感知的证据过滤和推理之间的交替,从而提高了核查的效率和准确性。

关键设计:RW-Post数据集的设计注重真实性和可解释性,它将真实世界的多模态声明与其原始社交媒体帖子对齐,并包含详细的推理过程和明确链接的证据。AgentFact框架中的Agent之间的通信和协作机制是关键设计之一,通过精心设计的消息传递和任务分配机制,确保Agent能够有效地协同工作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AgentFact框架在多模态事实核查任务中取得了显著的性能提升。通过与现有方法进行对比,AgentFact在准确性和可解释性方面均表现出优势。RW-Post数据集的引入也为多模态事实核查研究提供了高质量的数据支持,促进了相关领域的发展。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻媒体和信息安全领域,用于自动检测和识别多模态虚假信息,提高信息传播的可靠性和安全性。该技术有助于减少虚假信息对社会的影响,维护公众利益,并为未来的多模态信息处理研究提供借鉴。

📄 摘要(原文)

The rapid spread of multimodal misinformation poses a growing challenge for automated fact-checking systems. Existing approaches, including large vision language models (LVLMs) and deep multimodal fusion methods, often fall short due to limited reasoning and shallow evidence utilization. A key bottleneck is the lack of dedicated datasets that provide complete real-world multimodal misinformation instances accompanied by annotated reasoning processes and verifiable evidence. To address this limitation, we introduce RW-Post, a high-quality and explainable dataset for real-world multimodal fact-checking. RW-Post aligns real-world multimodal claims with their original social media posts, preserving the rich contextual information in which the claims are made. In addition, the dataset includes detailed reasoning and explicitly linked evidence, which are derived from human written fact-checking articles via a large language model assisted extraction pipeline, enabling comprehensive verification and explanation. Building upon RW-Post, we propose AgentFact, an agent-based multimodal fact-checking framework designed to emulate the human verification workflow. AgentFact consists of five specialized agents that collaboratively handle key fact-checking subtasks, including strategy planning, high-quality evidence retrieval, visual analysis, reasoning, and explanation generation. These agents are orchestrated through an iterative workflow that alternates between evidence searching and task-aware evidence filtering and reasoning, facilitating strategic decision-making and systematic evidence analysis. Extensive experimental results demonstrate that the synergy between RW-Post and AgentFact substantially improves both the accuracy and interpretability of multimodal fact-checking.