Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline
作者: Haiyang Li, Yaxiong Wang, Shengeng Tang, Lianwei Wu, Lechao Cheng, Zhun Zhong
分类: cs.AI, cs.CV
发布日期: 2025-09-30 (更新: 2025-10-15)
💡 一句话要点
提出OmniFake数据集与UMFDet框架,用于统一检测社交媒体中的多模态虚假信息。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态虚假信息检测 视觉-语言模型 混合专家 链式思考 社交媒体 内容审核 AI生成内容
📋 核心要点
- 现有方法专注于人为或AI生成虚假信息,缺乏统一处理能力,限制了在真实场景中的应用。
- 提出UMFDet框架,利用VLM骨干网络、类别感知MoE适配器和归因链式思考机制,实现统一检测。
- 在OmniFake数据集上,UMFDet表现优于专门的基线模型,证明了其在多模态欺骗检测方面的有效性。
📝 摘要(中文)
近年来,检测社交媒体上的多模态虚假内容越来越受到关注。主要存在两种欺骗形式:人为制造的虚假信息(例如,谣言和误导性帖子)和由图像合成模型或视觉-语言模型(VLMs)生成的AI内容。尽管两者都具有欺骗意图,但通常是孤立地进行研究。自然语言处理研究侧重于人为撰写的虚假信息,而计算机视觉领域则针对AI生成的伪造品。因此,现有模型通常仅专门用于一种类型的虚假内容。然而,在实际场景中,多模态帖子的类型通常是未知的,这限制了此类专用系统的有效性。为了弥合这一差距,我们构建了多模态新闻欺骗综合数据集(OmniFake),这是一个包含12.7万个样本的综合基准,它将现有资源中的人为策划的虚假信息与新合成的AI生成示例相结合。基于此数据集,我们提出了统一多模态虚假内容检测(UMFDet)框架,旨在处理这两种形式的欺骗。UMFDet利用VLM骨干网络,并辅以类别感知的混合专家(MoE)适配器来捕获特定类别的线索,以及归因链式思考机制,为定位显著的欺骗信号提供隐式推理指导。广泛的实验表明,UMFDet在两种虚假信息类型上均实现了稳健且一致的性能,优于专门的基线模型,并为实际的多模态欺骗检测提供了可行的解决方案。
🔬 方法详解
问题定义:论文旨在解决社交媒体中多模态虚假信息检测问题,现有方法通常针对人为制造或AI生成的内容进行专门设计,无法有效处理真实场景中类型未知的虚假信息。这些方法缺乏统一性,难以泛化到不同类型的欺骗内容。
核心思路:论文的核心思路是构建一个统一的框架,能够同时处理人为制造和AI生成的多模态虚假信息。通过利用视觉-语言模型(VLM)的强大表示能力,并结合类别感知的专家混合(MoE)适配器和归因链式思考机制,使模型能够学习到不同类型欺骗信息的共性和特性,从而实现更鲁棒的检测。
技术框架:UMFDet框架主要包含以下几个模块:1) VLM骨干网络:用于提取多模态特征;2) 类别感知的MoE适配器:根据输入数据的类别(人为或AI生成)选择不同的专家网络,以捕获特定类别的线索;3) 归因链式思考机制:通过生成一系列中间推理步骤,引导模型关注与欺骗相关的显著信号。整个流程是,输入多模态数据,VLM提取特征,MoE适配器根据类别选择专家,链式思考机制引导推理,最终输出真/假预测。
关键创新:论文的关键创新在于提出了一个统一的多模态虚假信息检测框架,能够同时处理人为制造和AI生成的内容。类别感知的MoE适配器和归因链式思考机制是两个重要的技术创新点,前者能够捕获特定类别的线索,后者能够提供隐式推理指导,帮助模型定位显著的欺骗信号。与现有方法相比,UMFDet更具通用性和鲁棒性。
关键设计:MoE适配器包含多个专家网络,每个专家网络专门处理一种类型的虚假信息。类别信息被用于选择合适的专家网络。归因链式思考机制通过生成一系列中间推理步骤,例如“图像显示了…,文本描述了…,图像和文本不一致,因此可能是假的”,来引导模型关注与欺骗相关的显著信号。损失函数包括分类损失和链式思考损失,用于优化模型的预测准确性和推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UMFDet在OmniFake数据集上取得了显著的性能提升。与专门针对人为制造或AI生成内容的基线模型相比,UMFDet在两种类型的虚假信息上均表现出更强的鲁棒性和一致性。具体而言,UMFDet在整体准确率上优于最佳基线模型超过5个百分点。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核、新闻真实性验证、舆情监控等领域。通过自动检测虚假信息,可以有效减少其传播,维护网络空间的健康和安全。未来,该技术还可扩展到其他多模态欺骗场景,如深度伪造视频检测等。
📄 摘要(原文)
In recent years, detecting fake multimodal content on social media has drawn increasing attention. Two major forms of deception dominate: human-crafted misinformation (e.g., rumors and misleading posts) and AI-generated content produced by image synthesis models or vision-language models (VLMs). Although both share deceptive intent, they are typically studied in isolation. NLP research focuses on human-written misinformation, while the CV community targets AI-generated artifacts. As a result, existing models are often specialized for only one type of fake content. In real-world scenarios, however, the type of a multimodal post is usually unknown, limiting the effectiveness of such specialized systems. To bridge this gap, we construct the Omnibus Dataset for Multimodal News Deception (OmniFake), a comprehensive benchmark of 127K samples that integrates human-curated misinformation from existing resources with newly synthesized AI-generated examples. Based on this dataset, we propose Unified Multimodal Fake Content Detection (UMFDet), a framework designed to handle both forms of deception. UMFDet leverages a VLM backbone augmented with a Category-aware Mixture-of-Experts (MoE) Adapter to capture category-specific cues, and an attribution chain-of-thought mechanism that provides implicit reasoning guidance for locating salient deceptive signals. Extensive experiments demonstrate that UMFDet achieves robust and consistent performance across both misinformation types, outperforming specialized baselines and offering a practical solution for real-world multimodal deception detection.