KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection

📄 arXiv: 2505.14714v2 📥 PDF

作者: Tuan-Vinh La, Minh-Hieu Nguyen, Minh-Son Dao

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-05-18 (更新: 2025-10-17)

备注: Withdrawn by the authors due to lack of explicit agreement from all co-authors to post this version publicly on arXiv

🔗 代码/项目: GITHUB


💡 一句话要点

KGAlign:融合语义-结构知识的多模态假新闻检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 假新闻检测 多模态融合 知识图谱 自注意力机制 自然语言处理

📋 核心要点

  1. 现有假新闻检测方法忽略了图像局部对象细节,且缺乏对外部知识和实体关系的有效利用,限制了语义理解的深度。
  2. KGAlign通过融合视觉、文本和知识表示,利用自下而上注意力捕获对象细节,并从知识图中自适应选择相关实体。
  3. 实验结果表明,KGAlign模型优于现有方法,证明了邻居选择机制和多模态融合在假新闻检测中的有效性。

📝 摘要(中文)

假新闻检测仍然是一个具有挑战性的问题,因为它涉及到文本错误信息、图像篡改和外部知识推理之间复杂的相互作用。现有的方法在验证真实性和跨模态一致性方面取得显著成果,但仍然存在两个关键挑战:(1) 现有方法通常只考虑全局图像上下文,而忽略了局部对象级别的细节;(2) 它们未能整合外部知识和实体关系以进行更深层次的语义理解。为了应对这些挑战,我们提出了一种新的多模态假新闻检测框架,该框架集成了视觉、文本和基于知识的表示。我们的方法利用自下而上的注意力来捕获细粒度的对象细节,使用CLIP来获取全局图像语义,并使用RoBERTa进行上下文感知的文本编码。我们通过从知识图中检索并自适应地选择相关实体来进一步增强知识利用。融合的多模态特征通过基于Transformer的分类器进行处理,以预测新闻的真实性。实验结果表明,我们的模型优于最近的方法,展示了邻居选择机制和多模态融合在假新闻检测中的有效性。我们的提议引入了一种新的范例:基于知识的多模态推理。通过整合显式的实体级别选择和NLI引导的过滤,我们将假新闻检测从特征融合转变为语义上基于知识的验证。为了可重复性和进一步研究,源代码已公开。

🔬 方法详解

问题定义:论文旨在解决多模态假新闻检测问题,现有方法的痛点在于无法有效利用图像中的局部对象信息,并且缺乏对外部知识图谱中实体关系的深入理解,导致语义推理能力不足。

核心思路:论文的核心思路是融合视觉、文本和知识三种模态的信息,利用自下而上的注意力机制关注图像局部细节,并通过知识图谱选择相关实体进行增强语义表示,从而提升假新闻检测的准确性。这种设计旨在弥补现有方法在局部信息和外部知识利用方面的不足。

技术框架:KGAlign框架包含以下主要模块:1)视觉特征提取:使用自下而上的注意力机制提取图像局部对象特征,并使用CLIP提取全局图像语义特征;2)文本特征提取:使用RoBERTa模型进行上下文感知的文本编码;3)知识图谱实体选择:从知识图谱中检索与新闻相关的实体,并使用自适应选择机制选择最相关的实体;4)多模态融合:将视觉、文本和知识表示进行融合;5)分类器:使用基于Transformer的分类器预测新闻的真实性。

关键创新:该论文最重要的技术创新点在于提出了一个知识驱动的多模态假新闻检测框架,该框架能够显式地选择和利用知识图谱中的实体信息,并将其与视觉和文本信息进行有效融合,从而实现更深层次的语义推理。与现有方法相比,该方法更加注重知识的利用和语义的理解,而不仅仅是简单的特征融合。

关键设计:在视觉特征提取方面,使用了自下而上的注意力机制,能够关注图像中的重要对象。在知识图谱实体选择方面,使用了自适应选择机制,能够选择与新闻最相关的实体。在多模态融合方面,使用了Transformer结构,能够有效地融合不同模态的信息。论文还使用了NLI(自然语言推理)来指导知识过滤,提升了知识的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KGAlign模型在假新闻检测任务上优于现有方法,证明了其有效性。具体性能数据和对比基线在论文中给出,展示了邻居选择机制和多模态融合的优势。该模型在多个数据集上取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻聚合网站等,自动检测和过滤虚假新闻,减少错误信息的传播,维护网络信息安全,提升公众对信息的信任度。未来可扩展到其他多模态信息验证场景,例如谣言检测、恶意内容识别等。

📄 摘要(原文)

Fake news detection remains a challenging problem due to the complex interplay between textual misinformation, manipulated images, and external knowledge reasoning. While existing approaches have achieved notable results in verifying veracity and cross-modal consistency, two key challenges persist: (1) Existing methods often consider only the global image context while neglecting local object-level details, and (2) they fail to incorporate external knowledge and entity relationships for deeper semantic understanding. To address these challenges, we propose a novel multi-modal fake news detection framework that integrates visual, textual, and knowledge-based representations. Our approach leverages bottom-up attention to capture fine-grained object details, CLIP for global image semantics, and RoBERTa for context-aware text encoding. We further enhance knowledge utilization by retrieving and adaptively selecting relevant entities from a knowledge graph. The fused multi-modal features are processed through a Transformer-based classifier to predict news veracity. Experimental results demonstrate that our model outperforms recent approaches, showcasing the effectiveness of neighbor selection mechanism and multi-modal fusion for fake news detection. Our proposal introduces a new paradigm: knowledge-grounded multimodal reasoning. By integrating explicit entity-level selection and NLI-guided filtering, we shift fake news detection from feature fusion to semantically grounded verification. For reproducibility and further research, the source code is publicly at \href{https://github.com/latuanvinh1998/KGAlign}{github.com/latuanvinh1998/KGAlign}.