Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning

作者: Ye Zhu, Yunan Wang, Zitong Yu

分类: cs.CV

发布日期: 2025-05-11

备注: Accepted by IJCAI 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出MFND数据集和浅层-深层多任务学习模型SDML，用于检测和定位多模态假新闻。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态假新闻检测 深度学习 多任务学习 跨模态融合 对比学习

📋 核心要点

现有方法难以有效检测和定位由深度伪造技术生成的高度逼真的多模态假新闻。
提出浅层-深层多任务学习模型SDML，通过浅层推理对齐模态特征，深层推理增强单模态特征，实现精准检测。
实验结果表明，SDML模型在主流数据集和自建数据集上均表现出优越的性能。

📝 摘要（中文）

本文提出一个新的多模态假新闻检测数据集(MFND)，该数据集包含11种篡改类型，旨在检测和定位高度逼真的假新闻。为了对抗最新的图像和文本生成方法，本文还提出了一个用于假新闻检测的浅层-深层多任务学习(SDML)模型，该模型充分利用单模态和互模态特征来挖掘新闻的内在语义。在浅层推理中，本文提出基于动量蒸馏的轻度惩罚对比学习，用于细粒度的统一空间图像和文本语义对齐，以及一个自适应跨模态融合模块来增强互模态特征。在深层推理中，本文设计了一个双分支框架来增强图像和文本单模态特征，分别与互模态特征融合，通过专门的检测和定位投影进行四种预测。在主流数据集和本文提出的数据集上的实验都证明了该模型的优越性。代码和数据集已发布。

🔬 方法详解

问题定义：当前的多模态假新闻检测方法难以有效应对日益逼真的深度伪造攻击，尤其是在检测和定位篡改区域方面存在不足。现有的方法可能无法充分利用单模态和跨模态信息，导致检测精度和定位能力受限。

核心思路：本文的核心思路是利用浅层-深层多任务学习框架，在浅层进行细粒度的跨模态语义对齐，增强互模态特征，然后在深层分别增强单模态特征，并结合互模态信息，最终实现更准确的假新闻检测和定位。通过多任务学习，模型可以同时学习检测和定位任务，从而提高整体性能。

技术框架：SDML模型包含浅层推理和深层推理两个阶段。在浅层推理阶段，使用基于动量蒸馏的轻度惩罚对比学习进行图像和文本语义对齐，并使用自适应跨模态融合模块增强互模态特征。在深层推理阶段，采用双分支框架分别增强图像和文本单模态特征，并将增强后的单模态特征与互模态特征融合，最后通过检测和定位投影进行预测。

关键创新：本文的关键创新点包括：1) 提出了一个新的多模态假新闻数据集MFND，包含多种篡改类型；2) 提出了基于动量蒸馏的轻度惩罚对比学习方法，用于细粒度的跨模态语义对齐；3) 设计了浅层-深层多任务学习框架，充分利用单模态和互模态特征。与现有方法相比，SDML模型能够更有效地检测和定位高度逼真的假新闻。

关键设计：在浅层推理中，动量蒸馏的轻度惩罚对比学习通过动量更新的方式稳定训练过程，并使用轻度惩罚项避免模型过度拟合。自适应跨模态融合模块根据不同模态特征的重要性自适应地调整融合权重。在深层推理中，双分支框架分别处理图像和文本特征，并使用不同的网络结构增强单模态特征。损失函数包括检测损失和定位损失，通过调整损失权重平衡检测和定位任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SDML模型在自建的MFND数据集和主流数据集上均取得了优越的性能。例如，在MFND数据集上，SDML模型的检测准确率相比现有方法提升了显著百分比（具体数值未知），并且在定位篡改区域方面也表现出更好的效果。这些结果验证了SDML模型在多模态假新闻检测和定位方面的有效性。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻网站等，用于自动检测和过滤虚假新闻，提高信息的可信度，减少虚假信息对社会的影响。此外，该技术还可用于辅助人工审核，提高审核效率和准确性。未来，该技术可进一步扩展到其他多模态信息检测领域，例如虚假评论检测、虚假广告检测等。

📄 摘要（原文）

Multimodal news contains a wealth of information and is easily affected by deepfake modeling attacks. To combat the latest image and text generation methods, we present a new Multimodal Fake News Detection dataset (MFND) containing 11 manipulated types, designed to detect and localize highly authentic fake news. Furthermore, we propose a Shallow-Deep Multitask Learning (SDML) model for fake news, which fully uses unimodal and mutual modal features to mine the intrinsic semantics of news. Under shallow inference, we propose the momentum distillation-based light punishment contrastive learning for fine-grained uniform spatial image and text semantic alignment, and an adaptive cross-modal fusion module to enhance mutual modal features. Under deep inference, we design a two-branch framework to augment the image and text unimodal features, respectively merging with mutual modalities features, for four predictions via dedicated detection and localization projections. Experiments on both mainstream and our proposed datasets demonstrate the superiority of the model. Codes and dataset are released at https://github.com/yunan-wang33/sdml.

Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理