Multimodal Learning for Fake News Detection in Short Videos Using Linguistically Verified Data and Heterogeneous Modality Fusion

作者: Shanghong Li, Chiam Wen Qi Ruth, Hong Xu, Fang Liu

分类: cs.CV, cs.AI

发布日期: 2025-09-19

💡 一句话要点

提出异构融合网络HFN，用于短视频假新闻检测，提升多模态信息利用率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 短视频假新闻检测 多模态融合 异构融合网络 决策网络 加权特征融合

📋 核心要点

现有短视频假新闻检测方法难以有效处理视频内容的多模态特性和动态变化。
提出异构融合网络HFN，通过决策网络动态调整模态权重，并采用加权多模态特征融合。
在FakeTT和VESV数据集上，HFN的Marco F1指标分别提升了2.71%和4.14%。

📝 摘要（中文）

短视频平台的快速发展需要更先进的假新闻检测方法。由于错误信息传播广泛且易于分享，可能导致严重的社会危害。现有方法通常难以处理短视频内容动态和多模态的特性。本文提出了异构融合网络HFN，它是一个新颖的多模态框架，集成了视频、音频和文本数据来评估短视频内容的真实性。HFN引入了一个决策网络，可以在推理过程中动态调整模态权重，以及一个加权多模态特征融合模块，以确保即使在数据不完整的情况下也能保持稳健的性能。此外，我们贡献了一个全面的数据集VESV（短视频真实性），专门用于短视频假新闻检测。在FakeTT和新收集的VESV数据集上进行的实验表明，与最先进的方法相比，Marco F1指标分别提高了2.71%和4.14%。这项工作建立了一个强大的解决方案，能够有效地识别短视频平台复杂环境中的假新闻，为打击错误信息提供更可靠和全面的方法。

🔬 方法详解

问题定义：该论文旨在解决短视频平台中假新闻检测的问题。现有方法在处理短视频的多模态特性（视频、音频、文本）以及数据不完整性方面存在不足，难以有效识别复杂场景下的虚假信息。现有方法通常采用静态的模态融合方式，无法根据不同视频的特点动态调整各模态的重要性。

核心思路：论文的核心思路是设计一个能够动态调整模态权重并有效融合多模态信息的异构融合网络HFN。通过引入决策网络，HFN能够根据输入视频的内容自适应地学习各模态的权重，从而更好地利用不同模态的信息。加权多模态特征融合模块则保证了在数据不完整的情况下，模型依然能够保持较好的性能。

技术框架：HFN的整体框架包括以下几个主要模块：1) 多模态特征提取模块：分别从视频、音频和文本中提取特征。2) 决策网络：根据提取的特征，动态学习各模态的权重。3) 加权多模态特征融合模块：根据决策网络学习到的权重，对不同模态的特征进行加权融合。4) 分类器：根据融合后的特征，判断视频是否为假新闻。

关键创新：HFN的关键创新在于引入了决策网络来动态调整模态权重。与现有方法中静态的模态融合方式不同，HFN能够根据输入视频的内容自适应地学习各模态的重要性，从而更好地利用不同模态的信息。此外，加权多模态特征融合模块也保证了在数据不完整的情况下，模型依然能够保持较好的性能。

关键设计：决策网络的设计是关键。具体实现细节未知，但可以推测其输入是多模态特征，输出是各模态的权重。损失函数的设计需要考虑如何引导决策网络学习到合适的权重，可能采用交叉熵损失函数或其他的定制化损失函数。加权融合模块的具体实现方式也未知，可能采用简单的加权求和，也可能采用更复杂的注意力机制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HFN在FakeTT和新收集的VESV数据集上，Marco F1指标分别提高了2.71%和4.14%，超过了当前最先进的方法。这表明HFN能够更有效地利用多模态信息，提高短视频假新闻检测的准确率。

🎯 应用场景

该研究成果可应用于短视频平台的内容审核，自动识别和过滤虚假信息，减少错误信息传播，维护网络信息安全。此外，该技术还可以扩展到其他多模态信息处理领域，例如社交媒体内容分析、舆情监控等，具有广泛的应用前景。

📄 摘要（原文）

The rapid proliferation of short video platforms has necessitated advanced methods for detecting fake news. This need arises from the widespread influence and ease of sharing misinformation, which can lead to significant societal harm. Current methods often struggle with the dynamic and multimodal nature of short video content. This paper presents HFN, Heterogeneous Fusion Net, a novel multimodal framework that integrates video, audio, and text data to evaluate the authenticity of short video content. HFN introduces a Decision Network that dynamically adjusts modality weights during inference and a Weighted Multi-Modal Feature Fusion module to ensure robust performance even with incomplete data. Additionally, we contribute a comprehensive dataset VESV (VEracity on Short Videos) specifically designed for short video fake news detection. Experiments conducted on the FakeTT and newly collected VESV datasets demonstrate improvements of 2.71% and 4.14% in Marco F1 over state-of-the-art methods. This work establishes a robust solution capable of effectively identifying fake news in the complex landscape of short video platforms, paving the way for more reliable and comprehensive approaches in combating misinformation.

Multimodal Learning for Fake News Detection in Short Videos Using Linguistically Verified Data and Heterogeneous Modality Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理