RASR: Retrieval-Augmented Semantic Reasoning for Fake News Video Detection
作者: Hui Li, Peien Ding, Jun Li, Guoqi Ma, Zhanyu Liu, Ge Xu, Junfeng Yao, Jinsong Su
分类: cs.CV
发布日期: 2026-04-08
备注: 10 pages,5 figures
💡 一句话要点
提出RASR框架,通过检索增强语义推理提升虚假新闻视频检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 虚假新闻检测 多模态融合 语义推理 检索增强 领域知识
📋 核心要点
- 现有虚假新闻视频检测方法缺乏跨实例的全局语义关联,难以有效利用历史关联证据进行验证。
- RASR框架通过跨实例语义解析与检索,以及领域引导的多模态推理,增强了对视频真实性的判断。
- 实验结果表明,RASR在FakeSV和FakeTT数据集上显著优于现有方法,提升了跨领域泛化能力和检测精度。
📝 摘要(中文)
多模态虚假新闻视频检测是维护在线信息可信度的关键研究方向。现有研究主要通过构建多模态特征融合表示或利用预训练语言模型分析视频-文本一致性来验证内容真实性。然而,这些方法仍然面临以下局限:(1)缺乏跨实例的全局语义关联,难以有效利用历史关联证据来验证当前视频;(2)跨领域的语义差异阻碍了通用知识的迁移,缺乏领域特定专家知识的指导。为此,我们提出了一种新颖的检索增强语义推理(RASR)框架。首先,跨实例语义解析器和检索器(CSPR)将视频解构为高层语义原语,并从动态记忆库中检索相关的关联证据。随后,领域引导的多模态推理(DGMP)模块结合领域先验,驱动专家多模态大型语言模型生成领域感知的深度分析报告。最后,多视角特征解耦和融合(MVDFF)模块通过自适应门控机制整合多维特征,实现鲁棒的真实性判定。在FakeSV和FakeTT数据集上的大量实验表明,RASR显著优于最先进的基线方法,实现了卓越的跨领域泛化能力,并将整体检测精度提高了高达0.93%。
🔬 方法详解
问题定义:论文旨在解决多模态虚假新闻视频检测中,现有方法缺乏跨实例全局语义关联以及领域知识指导的问题。现有方法难以有效利用历史关联证据,且通用知识在跨领域迁移时受阻,导致检测精度不高。
核心思路:论文的核心思路是利用检索增强语义推理,通过构建动态记忆库检索相关证据,并结合领域先验知识,驱动多模态大型语言模型进行深度分析。这种方法能够有效利用历史信息,并弥补跨领域语义差异带来的影响。
技术框架:RASR框架包含三个主要模块:跨实例语义解析器和检索器(CSPR)、领域引导的多模态推理(DGMP)模块和多视角特征解耦和融合(MVDFF)模块。CSPR负责将视频解构为语义原语并检索相关证据;DGMP结合领域先验生成分析报告;MVDFF整合多维特征进行真实性判定。
关键创新:RASR的关键创新在于引入了检索增强机制和领域知识引导。通过CSPR模块,模型能够从动态记忆库中检索相关证据,从而利用历史信息进行判断。DGMP模块则通过结合领域先验,使模型能够生成领域感知的分析报告,从而提高检测精度。
关键设计:CSPR模块采用语义解析技术将视频解构为高层语义原语,并使用相似度度量方法检索相关证据。DGMP模块利用领域知识驱动多模态大型语言模型生成分析报告,具体使用的LLM架构未知。MVDFF模块采用自适应门控机制,根据不同特征的重要性进行加权融合。具体的损失函数和网络结构细节在论文中未详细描述。
🖼️ 关键图片
📊 实验亮点
RASR框架在FakeSV和FakeTT数据集上取得了显著的性能提升,优于现有最先进的基线方法。实验结果表明,RASR具有卓越的跨领域泛化能力,整体检测精度提高了高达0.93%。这些结果验证了检索增强语义推理和领域知识引导在虚假新闻视频检测中的有效性。
🎯 应用场景
该研究成果可应用于在线社交媒体平台、新闻聚合网站等,用于自动检测和过滤虚假新闻视频,维护网络信息的可信度,减少虚假信息传播带来的负面影响。未来可扩展到其他多模态内容真实性检测场景,例如图像、音频等。
📄 摘要(原文)
Multimodal fake news video detection is a crucial research direction for maintaining the credibility of online information. Existing studies primarily verify content authenticity by constructing multimodal feature fusion representations or utilizing pre-trained language models to analyze video-text consistency. However, these methods still face the following limitations: (1) lacking cross-instance global semantic correlations, making it difficult to effectively utilize historical associative evidence to verify the current video; (2) semantic discrepancies across domains hinder the transfer of general knowledge, lacking the guidance of domain-specific expert knowledge. To this end, we propose a novel Retrieval-Augmented Semantic Reasoning (RASR) framework. First, a Cross-instance Semantic Parser and Retriever (CSPR) deconstructs the video into high-level semantic primitives and retrieves relevant associative evidence from a dynamic memory bank. Subsequently, a Domain-Guided Multimodal Reasoning (DGMP) module incorporates domain priors to drive an expert multimodal large language model in generating domain-aware, in-depth analysis reports. Finally, a Multi-View Feature Decoupling and Fusion (MVDFF) module integrates multi-dimensional features through an adaptive gating mechanism to achieve robust authenticity determination. Extensive experiments on the FakeSV and FakeTT datasets demonstrate that RASR significantly outperforms state-of-the-art baselines, achieves superior cross-domain generalization, and improves the overall detection accuracy by up to 0.93%.