More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram
作者: Elisabeth Steffen
分类: cs.SI, cs.CL, cs.CV, cs.MM
发布日期: 2024-10-11 (更新: 2025-08-03)
备注: 12 pages, 10 figures
期刊: Proceedings of the Nineteenth International AAAI Conference on Web and Social Media, Vol. 19 (2025)
DOI: 10.1609/icwsm.v19i1.35904
💡 一句话要点
提出基于BERTopic和CLIP的多模态主题建模方法,分析Telegram阴谋论内容。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态主题建模 阴谋论 Telegram BERTopic CLIP 社交媒体分析 虚假信息检测
📋 核心要点
- 现有方法在分析社交媒体内容时,往往忽略了模因之外的视觉信息,且缺乏有效的跨模态主题模型比较方法。
- 本研究提出一种基于BERTopic和CLIP的多模态主题建模方法,旨在分析Telegram频道中传播的阴谋论内容。
- 通过对德语Telegram频道数据的分析,揭示了文本和视觉内容的主题分布,并提出了分析阴谋论论述策略的框架。
📝 摘要(中文)
为了应对社交媒体上日益普及的(音频)视觉数据,并捕捉这种交流方式不断演变的动态特性,研究人员开始探索使用无监督方法分析多模态在线内容的潜力。然而,现有的研究通常忽略了模因之外的视觉内容,并且缺乏跨模态比较主题模型的方法。本研究通过应用多模态主题建模来分析德语Telegram频道中的阴谋论,从而弥补了这些差距。我们使用BERTopic与CLIP分析了2023年10月在571个以传播阴谋论而闻名的德语Telegram频道中发布的约40,000条Telegram消息中的文本和视觉数据。通过这个数据集,我们分析了跨模态主题的对称性和交叉点,从而深入了解单模态和多模态主题模型。我们展示了通过主题建模发现的频道中共享的各种文本和视觉内容,并提出了一个概念框架,用于分析阴谋论传播中使用的文本和视觉论述策略。我们在以色列-加沙议题的案例研究中应用了该框架。
🔬 方法详解
问题定义:该论文旨在解决社交媒体(特别是Telegram)上阴谋论内容分析的问题,现有方法的痛点在于:1) 忽略了视觉内容的多样性,仅关注模因;2) 缺乏有效的方法来比较不同模态(文本和视觉)的主题模型,难以理解跨模态信息的关联性。
核心思路:论文的核心思路是利用多模态主题建模技术,同时分析文本和视觉信息,从而更全面地理解阴谋论的内容和传播方式。通过比较不同模态的主题模型,可以揭示不同模态之间的关联和差异,从而更深入地理解阴谋论的叙事结构。
技术框架:整体框架包括以下几个主要步骤:1) 数据收集:从571个德语Telegram频道收集约40,000条消息;2) 特征提取:使用BERTopic提取文本特征,使用CLIP提取视觉特征;3) 主题建模:分别对文本和视觉数据进行主题建模,得到单模态主题模型;4) 跨模态分析:比较不同模态的主题模型,分析主题的对称性和交叉点;5) 案例研究:以“以色列-加沙”议题为例,应用提出的概念框架分析文本和视觉论述策略。
关键创新:该论文的关键创新点在于:1) 关注了模因之外的视觉内容,更全面地分析了社交媒体上的视觉信息;2) 提出了一种比较不同模态主题模型的方法,可以揭示跨模态信息的关联性;3) 提出了一个概念框架,用于分析阴谋论传播中使用的文本和视觉论述策略。
关键设计:论文使用了BERTopic进行文本主题建模,BERTopic是一个基于Transformer的topic modeling技术,能够自动确定最佳主题数量。CLIP模型用于提取图像的视觉特征,CLIP通过对比学习将图像和文本嵌入到同一个向量空间。论文通过分析不同模态主题的相似度和交叉点,来理解跨模态信息的关联性。具体参数设置和损失函数等技术细节在论文中未详细说明,属于BERTopic和CLIP的常规使用。
🖼️ 关键图片
📊 实验亮点
该研究通过对约40,000条Telegram消息的分析,揭示了阴谋论在德语Telegram频道中的传播模式。通过比较文本和视觉主题模型,发现了不同模态之间的关联和差异。案例研究表明,提出的概念框架可以有效地分析阴谋论传播中使用的文本和视觉论述策略。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于社交媒体内容分析、虚假信息检测、舆情监控等领域。通过多模态主题建模,可以更全面地理解社交媒体上的信息传播模式,从而帮助识别和应对虚假信息和有害内容。此外,该研究提出的概念框架可以为研究人员提供分析阴谋论论述策略的工具。
📄 摘要(原文)
To address the increasing prevalence of (audio-)visual data on social media, and to capture the evolving and dynamic nature of this communication, researchers have begun to explore the potential of unsupervised approaches for analyzing multimodal online content. However, existing research often neglects visual content beyond memes, and in addition lacks methods to compare topic models across modalities. Our study addresses these gaps by applying multimodal topic modeling for analyzing conspiracy theories in German-language Telegram channels. We use BERTopic with CLIP for the analysis of textual and visual data in a corpus of ~40, 000 Telegram messages posted in October 2023 in 571 German-language Telegram channels known for disseminating conspiracy theories. Through this dataset, we provide insights into unimodal and multimodal topic models by analyzing symmetry and intersections of topics across modalities. We demonstrate the variety of textual and visual content shared in the channels discovered through the topic modeling, and propose a conceptual framework for the analysis of textual and visual discursive strategies in the communication of conspiracy theories. We apply the framework in a case study of the topic group Israel Gaza.