TriSPrompt: A Hierarchical Soft Prompt Model for Multimodal Rumor Detection with Incomplete Modalities
作者: Jiajun Chen, Yangyang Wu, Xiaoye Miao, Mengying Zhu, Meng Xi
分类: cs.CL, cs.AI
发布日期: 2025-09-18
💡 一句话要点
提出TriSPrompt以解决多模态数据中谣言检测的缺失模态问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态数据 谣言检测 缺失模态 层次化模型 软提示机制 信息融合 社交媒体分析
📋 核心要点
- 现有多模态谣言检测方法主要依赖于完整的多模态数据,无法处理缺失模态的情况,导致检测效果不佳。
- 本文提出的TriSPrompt模型通过引入三种提示机制,增强了对缺失模态的适应性,提高了谣言检测的准确性。
- 在三个真实世界的基准数据集上,TriSPrompt的准确率提升超过13%,显示出其优越的性能和实用性。
📝 摘要(中文)
在多模态数据中,缺失模态的普遍存在对准确的谣言检测构成了重大挑战。现有的多模态谣言检测方法主要集中于从完整的多模态训练数据中学习联合模态表示,无法有效应对现实场景中常见的缺失模态问题。本文提出了一种层次化软提示模型TriSPrompt,集成了模态感知提示、缺失模态提示和互视提示三种类型的提示,以有效检测不完整多模态数据中的谣言。实验结果表明,TriSPrompt在三个真实世界基准数据集上相比于最先进的方法提高了超过13%的准确率。
🔬 方法详解
问题定义:本文旨在解决多模态数据中缺失模态对谣言检测的影响。现有方法主要依赖于完整数据,无法有效应对缺失模态的挑战。
核心思路:TriSPrompt模型通过引入模态感知、缺失模态和互视三种提示机制,增强了模型对不完整数据的适应性,从而提高谣言检测的准确性。
技术框架:TriSPrompt的整体架构包括三个主要模块:模态感知提示(MA)、缺失模态提示(MM)和互视提示(MV)。MA提示用于捕捉特定模态的异质信息,MM提示用于建模缺失状态,MV提示用于学习主观和客观视角之间的关系。
关键创新:TriSPrompt的核心创新在于其层次化的提示机制,能够有效整合不同模态的信息,特别是在模态缺失的情况下,显著提升了谣言检测的性能。
关键设计:模型设计中,MA提示关注可用模态的信息,MM提示通过建模缺失状态来增强模型的适应性,MV提示则通过学习不同视角之间的关系来提高检测效果。
🖼️ 关键图片
📊 实验亮点
在三个真实世界的基准数据集上,TriSPrompt相比于最先进的方法实现了超过13%的准确率提升,显示出其在处理不完整多模态数据方面的显著优势。
🎯 应用场景
该研究的潜在应用领域包括社交媒体监测、新闻验证和信息传播分析等。通过提高对缺失模态的适应性,TriSPrompt能够在实际应用中更有效地识别和应对谣言,具有重要的社会价值和实际影响。
📄 摘要(原文)
The widespread presence of incomplete modalities in multimodal data poses a significant challenge to achieving accurate rumor detection. Existing multimodal rumor detection methods primarily focus on learning joint modality representations from \emph{complete} multimodal training data, rendering them ineffective in addressing the common occurrence of \emph{missing modalities} in real-world scenarios. In this paper, we propose a hierarchical soft prompt model \textsf{TriSPrompt}, which integrates three types of prompts, \textit{i.e.}, \emph{modality-aware} (MA) prompt, \emph{modality-missing} (MM) prompt, and \emph{mutual-views} (MV) prompt, to effectively detect rumors in incomplete multimodal data. The MA prompt captures both heterogeneous information from specific modalities and homogeneous features from available data, aiding in modality recovery. The MM prompt models missing states in incomplete data, enhancing the model's adaptability to missing information. The MV prompt learns relationships between subjective (\textit{i.e.}, text and image) and objective (\textit{i.e.}, comments) perspectives, effectively detecting rumors. Extensive experiments on three real-world benchmarks demonstrate that \textsf{TriSPrompt} achieves an accuracy gain of over 13\% compared to state-of-the-art methods. The codes and datasets are available at https: //anonymous.4open.science/r/code-3E88.