Exploring Modality Disruption in Multimodal Fake News Detection

📄 arXiv: 2504.09154v1 📥 PDF

作者: Moyang Liu, Kaiying Yan, Yukun Liu, Ruibo Fu, Zhengqi Wen, Xuefei Liu, Chenxing Li

分类: cs.MM, cs.LG

发布日期: 2025-04-12


💡 一句话要点

提出FND-MoE框架,解决多模态假新闻检测中模态干扰问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态假新闻检测 模态干扰 特征选择 社交媒体 深度学习

📋 核心要点

  1. 多模态假新闻检测易受社交媒体中夸大或修饰信息的干扰,现有方法对此考虑不足。
  2. 论文提出FND-MoE框架,并设计两阶段特征选择机制,有针对性地缓解模态干扰。
  3. 实验结果表明,FND-MoE在FakeSV和FVC-2018数据集上显著优于现有方法,准确率分别提升3.45%和3.71%。

📝 摘要(中文)

社交媒体的快速发展导致了假新闻以多种内容形式(包括文本、图像、音频和视频)的广泛传播。与单模态假新闻检测相比,多模态假新闻检测受益于跨多个模态的可用信息增加。然而,在社交媒体的背景下,多模态假新闻检测任务中的某些模态可能包含干扰性或过度表达的信息,这些元素通常包括夸大或修饰的内容。我们将这种现象定义为模态干扰,并通过实验探索其对检测模型的影响。为了有针对性地解决模态干扰问题,我们提出了一个多模态假新闻检测框架FND-MoE。此外,我们设计了一种两阶段特征选择机制,以进一步减轻模态干扰的影响。在FakeSV和FVC-2018数据集上的大量实验表明,FND-MoE明显优于最先进的方法,与基线模型相比,在各自数据集上的准确率分别提高了3.45%和3.71%。

🔬 方法详解

问题定义:多模态假新闻检测旨在利用文本、图像等多种模态的信息来识别假新闻。然而,社交媒体上的某些模态可能包含夸大或修饰的信息,这些信息会干扰模型的判断,降低检测准确率。现有方法通常平等地对待所有模态,忽略了模态之间可能存在的干扰性差异。

核心思路:论文的核心思路是识别并减轻多模态数据中“模态干扰”的影响。通过设计专门的框架和特征选择机制,使模型能够更加关注可靠的模态信息,减少干扰性模态的影响,从而提高假新闻检测的准确性。

技术框架:论文提出的FND-MoE框架包含以下主要模块:1) 多模态特征提取模块,用于提取文本、图像等模态的特征;2) 模态专家模块(MoE),用于学习不同模态的表示;3) 两阶段特征选择模块,用于选择信息量大且干扰性小的特征;4) 融合模块,用于融合选择后的多模态特征,并进行最终的假新闻分类。

关键创新:论文的关键创新在于:1) 提出了“模态干扰”的概念,并分析了其对多模态假新闻检测的影响;2) 设计了FND-MoE框架,该框架能够有针对性地缓解模态干扰;3) 提出了两阶段特征选择机制,进一步提高了模型的鲁棒性。与现有方法相比,FND-MoE能够更好地处理多模态数据中的噪声和干扰,从而提高检测准确率。

关键设计:两阶段特征选择机制是关键设计之一。第一阶段使用基于互信息的特征选择方法,选择与标签相关性高的特征。第二阶段使用基于对抗学习的特征选择方法,选择能够抵抗对抗攻击的特征,从而提高模型的鲁棒性。损失函数包括分类损失和对抗损失,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FND-MoE在FakeSV和FVC-2018数据集上取得了显著的性能提升。在FakeSV数据集上,FND-MoE的准确率比基线模型提高了3.45%;在FVC-2018数据集上,准确率提高了3.71%。这些结果表明,FND-MoE能够有效地缓解模态干扰,提高多模态假新闻检测的准确性。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、舆情监控和虚假信息治理等领域。通过自动检测和过滤假新闻,可以有效维护网络空间的健康和安全,提升用户获取信息的质量,并减少虚假信息对社会造成的负面影响。未来,该技术还可扩展到其他多模态信息处理任务中,例如恶意软件检测、欺诈检测等。

📄 摘要(原文)

The rapid growth of social media has led to the widespread dissemination of fake news across multiple content forms, including text, images, audio, and video. Compared to unimodal fake news detection, multimodal fake news detection benefits from the increased availability of information across multiple modalities. However, in the context of social media, certain modalities in multimodal fake news detection tasks may contain disruptive or over-expressive information. These elements often include exaggerated or embellished content. We define this phenomenon as modality disruption and explore its impact on detection models through experiments. To address the issue of modality disruption in a targeted manner, we propose a multimodal fake news detection framework, FND-MoE. Additionally, we design a two-pass feature selection mechanism to further mitigate the impact of modality disruption. Extensive experiments on the FakeSV and FVC-2018 datasets demonstrate that FND-MoE significantly outperforms state-of-the-art methods, with accuracy improvements of 3.45% and 3.71% on the respective datasets compared to baseline models.