Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection

📄 arXiv: 2603.25203v1 📥 PDF

作者: Ruichao Yang, Wei Gao, Xiaobin Zhu, Jing Ma, Hongzhan Lin, Ziyang Luo, Bo-Wen Zhang, Xu-Cheng Yin

分类: cs.CV, cs.CL

发布日期: 2026-03-26

备注: Accepted by CVPR 2026


💡 一句话要点

提出概率概念图推理框架PCGR,用于可解释的多模态虚假信息检测。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态虚假信息检测 概念图推理 可解释性 鲁棒性 多模态大语言模型

📋 核心要点

  1. 现有MMD方法是黑盒模型,缺乏可解释性,且容易受到新型操纵手段的攻击。
  2. PCGR构建概念图,利用多模态大语言模型自动发现和验证高层概念,进行结构化推理。
  3. 实验结果表明,PCGR在准确性和鲁棒性上均优于现有方法,并具备可解释性。

📝 摘要(中文)

多模态虚假信息检测(MMD)面临日益严峻的挑战,传统检测器是不透明的黑盒,且容易受到新型操纵策略的影响。本文提出概率概念图推理(PCGR),这是一个可解释且可演化的框架,将MMD重构为结构化和基于概念的推理。PCGR遵循“构建-推断”范式,首先构建一个由人类可理解的概念节点组成的图,包括由多模态大型语言模型(MLLM)自动发现和验证的新型高层概念,然后应用分层注意力机制对该概念图进行推理,以判断声明的真实性。这种设计产生了可解释的推理链,将证据与结论联系起来。实验表明,PCGR在MMD准确性和对新兴操纵类型的鲁棒性方面均达到了最先进水平,在粗粒度检测和细粒度操纵识别方面均优于现有方法。

🔬 方法详解

问题定义:多模态虚假信息检测旨在识别包含文本和图像等多模态信息的虚假内容。现有方法通常采用黑盒模型,缺乏可解释性,难以理解模型的决策过程,并且容易受到对抗攻击和新型操纵手段的影响。因此,如何提高MMD模型的可解释性和鲁棒性是一个关键问题。

核心思路:本文的核心思路是将MMD问题转化为基于概念图的推理问题。通过构建一个包含人类可理解的概念节点的图,并利用多模态大语言模型自动发现和验证高层概念,模型可以进行结构化的推理,从而提高可解释性。同时,通过在概念图上应用分层注意力机制,模型可以关注与虚假信息检测相关的关键概念,从而提高鲁棒性。

技术框架:PCGR框架主要包含以下几个模块:1) 特征提取模块:提取文本和图像的特征表示。2) 概念图构建模块:利用多模态大语言模型自动发现和验证高层概念,并构建概念图。3) 分层注意力模块:在概念图上应用分层注意力机制,关注与虚假信息检测相关的关键概念。4) 推理模块:根据概念图上的推理结果,判断声明的真实性。

关键创新:PCGR的关键创新在于:1) 提出了一种基于概念图的MMD框架,将MMD问题转化为结构化推理问题。2) 利用多模态大语言模型自动发现和验证高层概念,提高了模型的可解释性。3) 采用分层注意力机制,提高了模型的鲁棒性。与现有方法相比,PCGR不仅提高了准确率,还具备更好的可解释性和鲁棒性。

关键设计:概念图的构建依赖于多模态大语言模型的知识,具体实现细节未知。分层注意力机制的具体实现细节未知。损失函数的设计目标是最大化真实声明的概率,同时最小化虚假声明的概率。具体的参数设置和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PCGR在MMD准确性和对新兴操纵类型的鲁棒性方面均达到了最先进水平,在粗粒度检测和细粒度操纵识别方面均优于现有方法。具体的性能提升数据未知,但强调了其在准确性和鲁棒性上的显著优势。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻网站等场景,用于自动检测和过滤虚假信息,提高信息传播的可靠性,减少虚假信息对社会造成的负面影响。未来,该方法可以扩展到其他多模态任务,如视频内容分析、医学图像诊断等。

📄 摘要(原文)

Multimodal misinformation poses an escalating challenge that often evades traditional detectors, which are opaque black boxes and fragile against new manipulation tactics. We present Probabilistic Concept Graph Reasoning (PCGR), an interpretable and evolvable framework that reframes multimodal misinformation detection (MMD) as structured and concept-based reasoning. PCGR follows a build-then-infer paradigm, which first constructs a graph of human-understandable concept nodes, including novel high-level concepts automatically discovered and validated by multimodal large language models (MLLMs), and then applies hierarchical attention over this concept graph to infer claim veracity. This design produces interpretable reasoning chains linking evidence to conclusions. Experiments demonstrate that PCGR achieves state-of-the-art MMD accuracy and robustness to emerging manipulation types, outperforming prior methods in both coarse detection and fine-grained manipulation recognition.