Multimodal Rumor Detection Enhanced by External Evidence and Forgery Features
作者: Han Li, Hua Sun
分类: cs.LG
发布日期: 2026-01-21
备注: 19 pages,10 figures
💡 一句话要点
提出融合外部证据与伪造特征的多模态谣言检测模型,提升社交媒体谣言识别精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态谣言检测 外部证据 伪造特征 对比学习 社交媒体
📋 核心要点
- 现有方法在多模态谣言检测中存在特征提取不足、模态对齐噪声大、融合策略不灵活等问题,且忽略了外部证据。
- 提出一种融合外部证据和伪造特征的多模态谣言检测模型,利用BLIP生成图像描述,并采用双重对比学习。
- 实验结果表明,该模型在Weibo和Twitter数据集上,宏观准确率、召回率和F1分数均优于主流基线。
📝 摘要(中文)
社交媒体上混合图文信息的传播日益广泛,但谣言常利用细微的不一致和伪造内容,使得仅基于帖子内容的检测变得困难。深度语义不匹配的谣言,表面上图像和文本对齐,构成了特殊的挑战,并威胁着在线舆论。现有的多模态谣言检测方法改进了跨模态建模,但存在特征提取有限、对齐噪声和融合策略不灵活的问题,同时忽略了验证复杂谣言所需的外部事实证据。为了解决这些局限性,我们提出了一种增强外部证据和伪造特征的多模态谣言检测模型。该模型使用ResNet34视觉编码器、BERT文本编码器和一个伪造特征模块,通过傅里叶变换提取频域痕迹和压缩伪影。BLIP生成的图像描述弥合了图像和文本语义空间。双重对比学习模块计算文本-图像和文本-描述对之间的对比损失,提高了语义不一致性的检测。门控自适应特征缩放融合机制动态调整多模态融合并减少冗余。在Weibo和Twitter数据集上的实验表明,我们的模型在宏观准确率、召回率和F1分数方面优于主流基线。
🔬 方法详解
问题定义:当前的多模态谣言检测方法难以有效识别深度语义不匹配的谣言,这些谣言的图像和文本表面上一致,但实际上存在矛盾。现有方法在特征提取、模态对齐和融合策略上存在局限性,并且忽略了外部证据,导致检测精度不高。
核心思路:该论文的核心思路是利用外部证据和伪造特征来增强多模态谣言检测。通过引入BLIP生成的图像描述,弥合图像和文本的语义空间,从而更好地检测语义不一致性。同时,提取图像的伪造特征,例如频域痕迹和压缩伪影,以识别篡改过的图像。
技术框架:该模型主要包含以下几个模块:1) ResNet34视觉编码器,用于提取图像特征;2) BERT文本编码器,用于提取文本特征;3) 伪造特征模块,通过傅里叶变换提取图像的频域痕迹和压缩伪影;4) BLIP图像描述生成器,用于生成图像的文本描述;5) 双重对比学习模块,计算文本-图像和文本-描述对之间的对比损失;6) 门控自适应特征缩放融合机制,动态调整多模态融合。
关键创新:该论文的关键创新在于:1) 引入了外部证据(BLIP生成的图像描述)来增强语义一致性检测;2) 提出了伪造特征模块,用于提取图像的频域痕迹和压缩伪影,从而识别篡改过的图像;3) 设计了双重对比学习模块,通过对比文本-图像和文本-描述对,提高了语义不一致性的检测能力;4) 采用了门控自适应特征缩放融合机制,动态调整多模态融合,减少冗余。
关键设计:该模型使用ResNet34作为视觉编码器,BERT作为文本编码器。伪造特征模块使用傅里叶变换提取频域特征。BLIP模型用于生成图像描述。双重对比学习模块使用InfoNCE损失函数。门控自适应特征缩放融合机制使用门控单元来动态调整不同模态的权重。具体的参数设置和网络结构细节在论文中有详细描述,但摘要中未明确给出具体数值。
📊 实验亮点
实验结果表明,该模型在Weibo和Twitter数据集上均取得了显著的性能提升。具体而言,在宏观准确率、召回率和F1分数方面,该模型均优于主流基线方法。例如,在某个数据集上,该模型的宏观F1分数比最佳基线提高了X%(具体数值未知,摘要未提供)。这些结果验证了该模型在多模态谣言检测方面的有效性。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核,自动识别和过滤谣言信息,维护健康的在线舆论环境。此外,该技术还可用于新闻真实性验证、图像取证等领域,具有重要的社会价值和应用前景。未来,可以进一步探索更有效的外部证据融合方法和更鲁棒的伪造特征提取技术。
📄 摘要(原文)
Social media increasingly disseminates information through mixed image text posts, but rumors often exploit subtle inconsistencies and forged content, making detection based solely on post content difficult. Deep semantic mismatch rumors, which superficially align images and texts, pose particular challenges and threaten online public opinion. Existing multimodal rumor detection methods improve cross modal modeling but suffer from limited feature extraction, noisy alignment, and inflexible fusion strategies, while ignoring external factual evidence necessary for verifying complex rumors. To address these limitations, we propose a multimodal rumor detection model enhanced with external evidence and forgery features. The model uses a ResNet34 visual encoder, a BERT text encoder, and a forgery feature module extracting frequency-domain traces and compression artifacts via Fourier transformation. BLIP-generated image descriptions bridge image and text semantic spaces. A dual contrastive learning module computes contrastive losses between text image and text description pairs, improving detection of semantic inconsistencies. A gated adaptive feature-scaling fusion mechanism dynamically adjusts multimodal fusion and reduces redundancy. Experiments on Weibo and Twitter datasets demonstrate that our model outperforms mainstream baselines in macro accuracy, recall, and F1 score.