Before It's Too Late: A State Space Model for the Early Prediction of Misinformation and Disinformation Engagement

📄 arXiv: 2502.04655v1 📥 PDF

作者: Lin Tian, Emily Booth, Francesco Bailo, Julian Droogan, Marian-Andrei Rizoiu

分类: cs.CL

发布日期: 2025-02-07

备注: 11 pages, 5 figures, 10 tables, Accepted by the Web Conference 2025 (WWW2025)

DOI: 10.1145/3696410.3714527

🔗 代码/项目: GITHUB


💡 一句话要点

提出IC-Mamba模型,用于社交媒体上虚假信息传播的早期预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 虚假信息检测 早期预测 状态空间模型 区间删失建模 社交媒体分析

📋 核心要点

  1. 现有深度学习方法在处理社交媒体互动预测时,难以应对不规则采样数据和早期轨迹评估的挑战。
  2. IC-Mamba模型通过集成时序嵌入的区间删失建模,预测社交媒体互动,捕捉细粒度的时间动态。
  3. 实验表明,IC-Mamba在早期互动预测和长时程预测方面均优于现有方法,为及早发现问题内容提供支持。

📝 摘要(中文)

在当今的数字时代,阴谋论和信息战活动迅速出现,侵蚀社会和民主凝聚力。虽然最近的深度学习方法在通过语言和传播模型建模用户互动方面取得了进展,但它们在处理不规则采样数据和早期轨迹评估方面存在困难。我们提出了IC-Mamba,一种新颖的状态空间模型,通过使用集成的时序嵌入对区间删失数据进行建模,来预测社交媒体互动。我们的模型擅长预测帖子发布后关键的最初15-30分钟内的互动模式(RMSE 0.118-0.143),从而能够快速评估内容的影响范围。通过将区间删失建模融入状态空间框架,IC-Mamba捕捉了互动增长的细粒度时间动态,在多个互动指标(点赞、分享、评论和表情符号)上实现了比最先进方法高4.72%的改进。我们的实验证明了IC-Mamba在预测帖子级别动态和更广泛的叙事模式方面的有效性(叙事级别预测的F1值为0.508-0.751)。该模型在较长时间范围内保持了强大的预测性能,成功地使用3-10天的观察窗口预测了长达28天的观点级别互动。这些能力使得能够更早地识别潜在的问题内容,为设计和实施对策提供了关键的提前时间。

🔬 方法详解

问题定义:该论文旨在解决社交媒体上虚假信息和不实信息传播的早期预测问题。现有方法,特别是基于深度学习的方法,在处理社交媒体数据时面临两个主要痛点:一是社交媒体数据的采样通常是不规则的,二是难以在信息传播的早期阶段准确预测其未来的参与度。这些痛点限制了及时识别和应对潜在有害信息的能力。

核心思路:IC-Mamba的核心思路是将状态空间模型与区间删失建模相结合,并融入时间嵌入。状态空间模型擅长处理时间序列数据,能够捕捉数据中的动态变化。区间删失建模则用于处理不规则采样的数据,通过将观测值视为一个区间而非精确的时间点,从而更好地适应社交媒体数据的特点。时间嵌入则用于编码时间信息,帮助模型理解互动随时间变化的趋势。

技术框架:IC-Mamba的整体框架包含以下几个主要模块:1) 数据预处理:对社交媒体数据进行清洗和转换,包括文本处理、特征提取等。2) 时间嵌入:将时间信息编码为向量表示,作为模型的输入。3) 状态空间模型:使用Mamba架构作为核心的状态空间模型,捕捉互动随时间变化的动态。4) 区间删失建模:将观测到的互动数据视为一个区间,并使用相应的损失函数进行训练。5) 预测:基于训练好的模型,预测未来一段时间内的互动情况。

关键创新:IC-Mamba的关键创新在于将区间删失建模融入到状态空间模型中,并结合时间嵌入。这种结合使得模型能够更好地处理不规则采样的数据,并捕捉互动随时间变化的细粒度动态。与现有方法相比,IC-Mamba能够更准确地预测早期阶段的互动情况,从而为及早发现和应对虚假信息提供支持。

关键设计:IC-Mamba的关键设计包括:1) Mamba架构:选择Mamba作为状态空间模型,因为它具有高效的计算性能和强大的建模能力。2) 区间删失损失函数:设计了专门的损失函数,用于处理区间删失数据,该损失函数能够有效地利用观测到的区间信息。3) 时间嵌入维度:通过实验确定了最佳的时间嵌入维度,以平衡模型的复杂度和性能。4) 训练策略:采用了合适的训练策略,例如学习率调整和正则化,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IC-Mamba在预测帖子发布后最初15-30分钟内的互动模式时,RMSE达到0.118-0.143。在多个互动指标(点赞、分享、评论和表情符号)上,IC-Mamba比最先进方法实现了4.72%的改进。在叙事级别预测中,IC-Mamba的F1值为0.508-0.751。该模型能够使用3-10天的观察窗口预测长达28天的观点级别互动。

🎯 应用场景

IC-Mamba可应用于社交媒体平台的内容审核、舆情监控和虚假信息检测。通过早期预测潜在有害内容的传播趋势,平台可以及时采取干预措施,例如限制传播、添加警告标签或提供辟谣信息,从而维护健康的在线环境。该研究还可用于分析信息战活动,帮助识别和应对恶意信息传播。

📄 摘要(原文)

In today's digital age, conspiracies and information campaigns can emerge rapidly and erode social and democratic cohesion. While recent deep learning approaches have made progress in modeling engagement through language and propagation models, they struggle with irregularly sampled data and early trajectory assessment. We present IC-Mamba, a novel state space model that forecasts social media engagement by modeling interval-censored data with integrated temporal embeddings. Our model excels at predicting engagement patterns within the crucial first 15-30 minutes of posting (RMSE 0.118-0.143), enabling rapid assessment of content reach. By incorporating interval-censored modeling into the state space framework, IC-Mamba captures fine-grained temporal dynamics of engagement growth, achieving a 4.72% improvement over state-of-the-art across multiple engagement metrics (likes, shares, comments, and emojis). Our experiments demonstrate IC-Mamba's effectiveness in forecasting both post-level dynamics and broader narrative patterns (F1 0.508-0.751 for narrative-level predictions). The model maintains strong predictive performance across extended time horizons, successfully forecasting opinion-level engagement up to 28 days ahead using observation windows of 3-10 days. These capabilities enable earlier identification of potentially problematic content, providing crucial lead time for designing and implementing countermeasures. Code is available at: https://github.com/ltian678/ic-mamba. An interactive dashboard demonstrating our results is available at: https://ic-mamba.behavioral-ds.science.