Retrieval-Augmented Multimodal Model for Fake News Detection

作者: Yiheng Li, Weihai Lu, Hanyi Yu, Yue Wang

分类: cs.CL, cs.MM

发布日期: 2026-04-20

🔗 代码/项目: GITHUB

💡 一句话要点

提出检索增强多模态模型RAMM，解决假新闻检测中跨实例叙事一致性和领域知识缺乏问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 假新闻检测 多模态学习 检索增强 叙事一致性 类比推理

📋 核心要点

现有假新闻检测模型忽略了跨实例叙事一致性，难以识别社交媒体上集群传播的假新闻。
RAMM模型通过检索增强，利用多模态大语言模型和对齐模块，建模高级叙事信息和进行类比推理。
在三个公共数据集上的实验表明，RAMM模型能够有效提升假新闻检测的准确性和泛化能力。

📝 摘要（中文）

近年来，多模态多领域假新闻检测日益受到关注。然而，该方向面临两个重大挑战：(1) 无法捕捉跨实例叙事一致性：现有模型通常孤立地评估每条新闻，无法捕捉跨实例叙事一致性，因此难以应对社交媒体驱动的基于集群的假新闻传播；(2) 缺乏领域特定知识进行推理：传统模型仅依赖训练期间编码在其参数中的知识，难以推广到新的或数据稀缺的领域（例如，新兴事件或小众话题）。为了应对这些挑战，我们提出了一种用于假新闻检测的检索增强多模态模型（RAMM）。首先，RAMM采用多模态大型语言模型（MLLM）作为其骨干，以捕获新闻样本中的跨模态语义信息。其次，RAMM 包含一个抽象叙事对齐模块。该组件自适应地从不同领域的各种实例中提取抽象叙事一致性，聚合相关知识，从而能够对高级叙事信息进行建模。最后，RAMM 引入了一个语义表示对齐模块，该模块将模型的决策范式与人类的决策范式对齐——具体来说，它将模型的推理过程从直接推断多模态特征转变为基于实例的类比推理过程。在三个公共数据集上的大量实验结果验证了我们提出的方法的有效性。我们的代码可在以下链接找到：https://github.com/li-yiheng/RAMM

🔬 方法详解

问题定义：现有假新闻检测方法主要存在两个痛点：一是忽略了新闻之间的关联性，无法捕捉跨实例的叙事一致性，导致难以识别集群式传播的假新闻；二是缺乏领域特定知识，难以泛化到新的或数据稀缺的领域，例如突发事件或小众话题。

核心思路：RAMM的核心思路是通过检索增强的方式，引入外部知识和相关实例，从而弥补现有模型的不足。具体来说，利用多模态大语言模型（MLLM）提取新闻的语义信息，并通过抽象叙事对齐模块和语义表示对齐模块，分别建模叙事一致性和进行类比推理。

技术框架：RAMM的整体框架包含以下几个主要模块：(1) 多模态大语言模型（MLLM）：用于提取新闻文本和图像的跨模态语义信息；(2) 抽象叙事对齐模块：用于从不同领域的实例中提取抽象叙事一致性，聚合相关知识；(3) 语义表示对齐模块：用于将模型的推理过程对齐到基于实例的类比推理过程。整个流程是先通过MLLM提取特征，然后通过两个对齐模块进行知识增强和推理，最后进行假新闻的判断。

关键创新：RAMM的关键创新在于引入了检索增强机制，并设计了抽象叙事对齐模块和语义表示对齐模块。与现有方法相比，RAMM能够更好地捕捉跨实例的叙事一致性，并利用外部知识进行推理，从而提高了假新闻检测的准确性和泛化能力。

关键设计：抽象叙事对齐模块的具体实现方式未知，语义表示对齐模块的具体实现方式也未知。论文中未明确提及损失函数和网络结构的具体细节。

🖼️ 关键图片

📊 实验亮点

论文在三个公开数据集上进行了实验，验证了RAMM模型的有效性。具体的性能数据和提升幅度未知，但实验结果表明RAMM模型能够有效提升假新闻检测的准确性和泛化能力，优于现有的基线方法。具体的提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻聚合网站等，用于自动检测和过滤虚假新闻，减少虚假信息对社会舆论的影响。此外，该方法还可以扩展到其他多模态信息真实性检测任务中，例如深度伪造视频检测等，具有重要的实际应用价值。

📄 摘要（原文）

In recent years, multimodal multidomain fake news detection has garnered increasing attention. Nevertheless, this direction presents two significant challenges: (1) Failure to Capture Cross-Instance Narrative Consistency: existing models usually evaluate each news in isolation, fail to capture cross-instance narrative consistency, and thus struggle to address the spread of cluster based fake news driven by social media; (2) Lack of Domain Specific Knowledge for Reasoning: conventional models, which rely solely on knowledge encoded in their parameters during training, struggle to generalize to new or data-scarce domains (e.g., emerging events or niche topics). To tackle these challenges, we introduce Retrieval-Augmented Multimodal Model for Fake News Detection (RAMM). First, RAMM employs a Multimodal Large Language Model (MLLM) as its backbone to capture cross-modal semantic information from news samples. Second, RAMM incorporates an Abstract Narrative Alignment Module. This component adaptively extracts abstract narrative consistency from diverse instances across distinct domains, aggregates relevant knowledge, and thereby enables the modeling of high-level narrative information. Finally, RAMM introduces a Semantic Representation Alignment Module, which aligns the model's decision-making paradigm with that of humans - specifically, it shifts the model's reasoning process from direct inference on multimodal features to an instance-based analogical reasoning process. Extensive experimental results on three public datasets validate the efficacy of our proposed approach. Our code is available at the following link: https://github.com/li-yiheng/RAMM

Retrieval-Augmented Multimodal Model for Fake News Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理