Synergizing LLMs with Global Label Propagation for Multimodal Fake News Detection
作者: Shuguo Hu, Jun Hu, Huaiwen Zhang
分类: cs.CL
发布日期: 2025-05-31
备注: Accepted by ACL 2025 Main Conference
💡 一句话要点
提出GLPN-LLM,结合LLM伪标签与全局标签传播,提升多模态假新闻检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态假新闻检测 大型语言模型 伪标签 全局标签传播 标签传播网络
📋 核心要点
- 现有方法难以有效整合LLM生成的伪标签,导致多模态假新闻检测性能提升有限。
- GLPN-LLM通过全局标签传播,利用LLM伪标签增强预测精度,并设计掩码机制防止标签泄露。
- 实验结果表明,GLPN-LLM在基准数据集上优于现有最佳方法,验证了LLM与标签传播协同作用的有效性。
📝 摘要(中文)
大型语言模型(LLMs)可以通过预测伪标签来辅助多模态假新闻检测。然而,仅使用LLM生成的伪标签表现不佳,甚至不如传统的检测方法,因此如何有效整合LLM的能力是一个难题。本文提出了一种基于LLM伪标签的全局标签传播网络(GLPN-LLM)用于多模态假新闻检测,该方法通过标签传播技术整合LLM的能力。全局标签传播可以利用LLM生成的伪标签,通过在所有样本间传播标签信息来提高预测精度。对于标签传播,设计了一种基于掩码的机制,以防止训练期间的标签泄露,确保训练节点不会将自己的标签传播回自身。在基准数据集上的实验结果表明,通过将LLM与标签传播协同作用,我们的模型实现了优于最先进基线的性能。
🔬 方法详解
问题定义:论文旨在解决多模态假新闻检测中,如何有效利用大型语言模型(LLMs)生成的伪标签的问题。直接使用LLM生成的伪标签进行训练,效果往往不如传统方法,因为LLM的预测可能存在噪声,且与真实标签的分布存在差异。因此,如何将LLM的知识融入到多模态假新闻检测模型中,同时避免引入过多噪声,是本研究要解决的核心问题。
核心思路:论文的核心思路是利用全局标签传播网络,将LLM生成的伪标签作为先验知识,在所有样本之间进行标签信息的传播。通过标签传播,可以平滑LLM伪标签中的噪声,并利用样本之间的相似性,提高预测的准确性。同时,为了防止训练过程中的标签泄露,设计了一种基于掩码的机制,避免训练样本将自身的标签传播回自身。
技术框架:GLPN-LLM的整体框架主要包含以下几个阶段:1) 使用LLM生成伪标签;2) 构建全局标签传播网络;3) 利用掩码机制进行标签传播;4) 结合多模态特征和传播后的标签进行最终预测。具体来说,首先利用预训练的LLM对训练数据进行预测,得到伪标签。然后,构建一个全局标签传播网络,该网络将所有样本视为节点,并根据样本之间的相似性构建边。在标签传播过程中,每个节点会根据其邻居节点的标签信息更新自身的标签。为了防止标签泄露,使用掩码机制,使得每个节点在更新自身标签时,不会考虑自身的原始标签。最后,将多模态特征和传播后的标签输入到分类器中,进行最终的假新闻检测。
关键创新:本论文的关键创新在于将LLM生成的伪标签与全局标签传播网络相结合,用于多模态假新闻检测。与直接使用LLM伪标签的方法相比,GLPN-LLM可以通过标签传播平滑噪声,提高预测精度。与传统的标签传播方法相比,GLPN-LLM可以利用LLM的知识,为标签传播提供更强的先验信息。此外,掩码机制的设计有效地防止了标签泄露,保证了模型的泛化能力。
关键设计:在标签传播过程中,样本之间的相似性度量是一个关键的设计。论文中可能使用了余弦相似度或其他相似性度量方法来计算样本之间的相似度。此外,掩码矩阵的设计也至关重要,它决定了哪些节点之间可以进行标签传播。损失函数的设计也需要考虑如何平衡LLM伪标签和真实标签之间的权重,以及如何惩罚标签传播过程中的错误。具体的网络结构细节(例如,分类器的类型和参数)也需要根据具体的数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GLPN-LLM在基准数据集上取得了显著的性能提升,超越了现有的最佳方法。具体的性能数据(例如,准确率、F1值等)在论文中给出,证明了将LLM与标签传播相结合的有效性。通过消融实验,验证了全局标签传播和掩码机制对模型性能的贡献。
🎯 应用场景
该研究成果可应用于各种在线社交媒体平台,用于自动检测和过滤虚假新闻,从而减少虚假信息的传播,维护网络空间的健康生态。此外,该方法也可以扩展到其他多模态信息鉴别任务中,例如恶意软件检测、图像篡改检测等,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) can assist multimodal fake news detection by predicting pseudo labels. However, LLM-generated pseudo labels alone demonstrate poor performance compared to traditional detection methods, making their effective integration non-trivial. In this paper, we propose Global Label Propagation Network with LLM-based Pseudo Labeling (GLPN-LLM) for multimodal fake news detection, which integrates LLM capabilities via label propagation techniques. The global label propagation can utilize LLM-generated pseudo labels, enhancing prediction accuracy by propagating label information among all samples. For label propagation, a mask-based mechanism is designed to prevent label leakage during training by ensuring that training nodes do not propagate their own labels back to themselves. Experimental results on benchmark datasets show that by synergizing LLMs with label propagation, our model achieves superior performance over state-of-the-art baselines.