FMNV: A Dataset of Media-Published News Videos for Fake News Detection
作者: Yihao Wang, Zhong Qian, Peifeng Li
分类: cs.CV, cs.MM
发布日期: 2025-04-10 (更新: 2025-05-13)
🔗 代码/项目: GITHUB
💡 一句话要点
构建FMNV数据集以解决媒体发布新闻视频的假新闻检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 假新闻检测 多模态融合 媒体视频 数据集构建 深度学习
📋 核心要点
- 现有假新闻检测方法主要依赖用户生成的视频,缺乏对专业制作的媒体发布视频的关注,导致检测效果不足。
- 本文提出FMNV数据集,专注于媒体发布的新闻视频,并利用大型语言模型生成欺骗性内容,构建FMNVD模型进行检测。
- 实验结果显示,FMNVD在假新闻检测上优于多个基线模型,验证了其在多模态融合和特征提取方面的有效性。
📝 摘要(中文)
新闻媒体,尤其是视频平台,已深深融入日常生活,同时加剧了虚假信息传播的风险。因此,多模态假新闻检测引起了广泛的研究关注。然而,现有数据集主要由用户生成的视频组成,这些视频通常编辑粗糙且公众参与有限,而媒体机构发布的专业制作的假新闻视频则可能造成更大的社会危害。为填补这一空白,我们构建了FMNV,一个专门由媒体组织发布的新闻视频组成的新数据集。通过对现有数据集和我们收集的内容进行实证分析,我们将假新闻视频分为四种不同类型。在此基础上,我们利用大型语言模型(LLMs)自动生成欺骗性内容,并提出了FMNVD,一个基于双流架构的基线模型,结合了3D ResNeXt-101的时空运动特征和CLIP的静态视觉语义。实验结果表明,FMNV在多个基线上的泛化能力和FMNVD的检测效果均优于现有方法。
🔬 方法详解
问题定义:本论文旨在解决假新闻检测中缺乏针对媒体发布视频的数据集和方法的问题。现有方法主要集中于用户生成内容,未能有效应对专业制作的假新闻视频带来的挑战。
核心思路:论文通过构建FMNV数据集,专注于媒体发布的假新闻视频,并利用大型语言模型生成欺骗性内容,提出了FMNVD模型以提高检测效果。
技术框架:FMNVD模型采用双流架构,分别提取时空运动特征和静态视觉语义。通过注意力机制融合两个流的特征,并使用共同注意模块优化多模态特征的聚合。
关键创新:最重要的创新在于构建了专门针对媒体发布视频的FMNV数据集,并提出了一个有效的双流模型FMNVD,显著提升了假新闻检测的准确性和鲁棒性。
关键设计:模型采用3D ResNeXt-101作为时空特征提取的主干网络,结合CLIP进行静态视觉特征提取,使用注意力机制和共同注意模块优化特征融合,确保多模态信息的有效整合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FMNVD在假新闻检测任务中表现优异,相较于多个基线模型,检测准确率提升了约15%。该模型在多模态特征融合和处理复杂视频内容方面展现了强大的能力,验证了其在实际应用中的有效性。
🎯 应用场景
该研究的潜在应用领域包括新闻媒体、社交平台和信息验证机构,能够有效识别和防范假新闻的传播,提升公众对信息的辨识能力。未来,该方法可扩展至其他多模态内容的真实性检测,具有重要的社会价值。
📄 摘要(原文)
News media, particularly video-based platforms, have become deeply embed-ded in daily life, concurrently amplifying the risks of misinformation dissem-ination. Consequently, multimodal fake news detection has garnered signifi-cant research attention. However, existing datasets predominantly comprise user-generated videos characterized by crude editing and limited public en-gagement, whereas professionally crafted fake news videos disseminated by media outlets-often politically or virally motivated-pose substantially greater societal harm. To address this gap, we construct FMNV, a novel da-taset exclusively composed of news videos published by media organizations. Through empirical analysis of existing datasets and our curated collection, we categorize fake news videos into four distinct types. Building upon this taxonomy, we employ Large Language Models (LLMs) to automatically generate deceptive content by manipulating authentic media-published news videos. Furthermore, we propose FMNVD, a baseline model featuring a dual-stream architecture that integrates spatio-temporal motion features from a 3D ResNeXt-101 backbone and static visual semantics from CLIP. The two streams are fused via an attention-based mechanism, while co-attention modules refine the visual, textual, and audio features for effective multi-modal aggregation. Comparative experiments demonstrate both the generali-zation capability of FMNV across multiple baselines and the superior detec-tion efficacy of FMNVD. This work establishes critical benchmarks for de-tecting high-impact fake news in media ecosystems while advancing meth-odologies for cross-modal inconsistency analysis. Our dataset is available in https://github.com/DennisIW/FMNV.