CroMe: Multimodal Fake News Detection using Cross-Modal Tri-Transformer and Metric Learning

作者: Eunjee Choi, Junhyun Ahn, XinYu Piao, Jong-Kook Kim

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-01-21 (更新: 2025-11-26)

DOI: 10.1109/ACCESS.2025.3633841

💡 一句话要点

提出CroMe模型，利用跨模态Tri-Transformer和度量学习进行多模态假新闻检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态假新闻检测 跨模态融合 Tri-Transformer 度量学习 BLIP2 预训练模型 代理锚点

📋 核心要点

现有方法在多模态假新闻检测中，忽略了模态内部关系和模态间相似性的有效利用。
CroMe模型利用BLIP2捕获文本、图像和图文组合表示，并结合度量学习和Tri-Transformer进行特征融合。
实验结果表明，CroMe模型在多模态假新闻检测任务上取得了优异的性能。

📝 摘要（中文）

本文提出了一种用于多模态假新闻检测的跨模态Tri-Transformer和度量学习方法(CroMe)。现有方法依赖于独立编码的单模态数据，忽略了捕获模态内关系和利用先进技术整合模态间相似性的优势。CroMe利用带有冻结图像编码器和大型语言模型的Bootstrapping Language-Image Pre-training (BLIP2)作为编码器，以捕获详细的文本、图像和组合的图像-文本表示。度量学习模块采用代理锚点方法来捕获模态内关系，而特征融合模块使用跨模态和Tri-Transformer进行有效整合。最终的假新闻检测器通过分类器处理融合的特征来预测内容的真实性。在数据集上的实验表明，CroMe在多模态假新闻检测方面表现出色。

🔬 方法详解

问题定义：多模态假新闻检测旨在识别包含文本和图像等多模态信息的虚假新闻。现有方法通常独立编码单模态数据，忽略了模态内部关系以及模态间相似性的有效融合，导致检测性能受限。

核心思路：CroMe的核心思路是利用预训练的BLIP2模型提取高质量的文本和图像特征，并通过度量学习增强模态内部的表示能力，最后使用跨模态Tri-Transformer有效融合不同模态的特征。这种设计旨在充分利用多模态信息，提升假新闻检测的准确性。

技术框架：CroMe模型主要包含三个模块：1) 特征提取模块：使用BLIP2模型提取文本、图像和图文组合特征；2) 度量学习模块：采用代理锚点方法，学习模态内部的特征表示；3) 特征融合模块：使用跨模态Tri-Transformer融合不同模态的特征，最后通过分类器进行真假新闻的预测。

关键创新：CroMe的关键创新在于：1) 采用BLIP2作为多模态特征提取器，能够有效捕获文本和图像之间的关联；2) 引入度量学习模块，增强模态内部的特征表示能力；3) 设计了跨模态Tri-Transformer，能够有效融合不同模态的特征，从而提升假新闻检测的性能。

关键设计：BLIP2采用冻结的图像编码器和大型语言模型，以提高训练效率和泛化能力。度量学习模块使用代理锚点损失函数，鼓励同一类别的样本靠近其代理锚点，不同类别的样本远离。Tri-Transformer包含三个Transformer编码器，分别处理文本、图像和图文组合特征，并通过交叉注意力机制实现模态间的交互。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CroMe模型在多模态假新闻检测任务上取得了显著的性能提升。具体而言，CroMe在多个公开数据集上超越了现有的基线方法，验证了其在多模态假新闻检测方面的有效性。论文中提供了具体的性能数据，例如准确率、精确率、召回率和F1值等指标，证明了CroMe的优越性。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻聚合网站等，用于自动检测和过滤虚假新闻，从而减少虚假信息的传播，维护网络信息安全，提升用户获取信息的质量。未来可扩展到其他多模态内容真实性验证场景，例如视频和音频的深度伪造检测。

📄 摘要（原文）

Multimodal Fake News Detection has received increasing attention recently. Existing methods rely on independently encoded unimodal data and overlook the advantages of capturing intra-modality relationships and integrating inter-modal similarities using advanced techniques. To address these issues, Cross-Modal Tri-Transformer and Metric Learning for Multimodal Fake News Detection (CroMe) is proposed. CroMe utilizes Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (BLIP2) as encoders to capture detailed text, image and combined image-text representations. The metric learning module employs a proxy anchor method to capture intra-modality relationships while the feature fusion module uses a Cross-Modal and Tri-Transformer for effective integration. The final fake news detector processes the fused features through a classifier to predict the authenticity of the content. Experiments on datasets show that CroMe excels in multimodal fake news detection.

CroMe: Multimodal Fake News Detection using Cross-Modal Tri-Transformer and Metric Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理