Beyond the "Truth": Investigating Election Rumors on Truth Social During the 2024 Election

📄 arXiv: 2601.04631v1 📥 PDF

作者: Etienne Casanova, R. Michael Alvarez

分类: cs.AI, cs.SI

发布日期: 2026-01-08


💡 一句话要点

提出基于LLM的多阶段谣言检测Agent,用于分析Truth Social平台2024年选举谣言。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 谣言检测 大型语言模型 社交媒体分析 虚幻真相效应 选举谣言

📋 核心要点

  1. 现有方法难以在大规模社交平台中精确识别和量化选举谣言的传播,尤其是在另类社交媒体平台。
  2. 论文提出一种多阶段谣言检测Agent,结合RoBERTa、关键词过滤和GPT-4o mini,实现高精度谣言分类。
  3. 实验表明,谣言分享概率随曝光次数增加而上升,验证了“虚幻真相效应”,并模拟了谣言的快速传播。

📝 摘要(中文)

本文展示了大型语言模型(LLM)在心理测量方面的价值,通过以下方式:(1) 编译了首个关于小众另类技术平台上的选举谣言的大规模数据集;(2) 开发了一个多阶段谣言检测Agent,该Agent利用LLM进行高精度内容分类;(3) 量化了谣言传播的心理动态,特别是在自然环境中的“虚幻真相效应”。该谣言检测Agent结合了(i) 合成数据增强的微调RoBERTa分类器,(ii) 精确关键词过滤,以及(iii) 使用GPT-4o mini的两阶段LLM验证流程。研究结果表明,分享概率随着每次额外曝光而稳步上升,为意识形态同质网络中的剂量反应信念强化提供了大规模的经验证据。模拟结果进一步表明了快速的传染效应:在仅仅四次传播迭代中,近四分之一的用户被“感染”。总而言之,这些结果说明了LLM如何通过对大规模真实世界数据集中的信念动态和错误信息传播进行严格测量来改变心理科学。

🔬 方法详解

问题定义:论文旨在解决在Truth Social等另类社交媒体平台上大规模、高精度地检测和分析选举谣言的问题。现有方法在处理此类平台上的特定语言风格、意识形态偏见以及数据稀疏性方面存在不足,难以准确识别和量化谣言的传播动态。

核心思路:论文的核心思路是构建一个多阶段的谣言检测Agent,该Agent结合了传统机器学习模型(RoBERTa)的效率和大型语言模型(LLM)的推理能力,以实现高精度和可扩展性的谣言检测。通过多阶段过滤和验证,逐步缩小候选谣言的范围,并利用LLM进行最终的语义理解和判断。

技术框架:该谣言检测Agent包含三个主要阶段:(1) 使用合成数据增强的微调RoBERTa分类器进行初步筛选,识别潜在的谣言帖子;(2) 使用精确关键词过滤进一步缩小候选范围,提高精度;(3) 使用GPT-4o mini进行两阶段LLM验证,首先进行初步判断,然后进行更深入的分析,以确认或排除谣言。

关键创新:该方法最重要的创新点在于将传统机器学习模型与大型语言模型相结合,构建了一个多阶段的谣言检测流程。这种混合方法既利用了传统模型的效率,又发挥了LLM的语义理解和推理能力,从而实现了高精度和可扩展性的谣言检测。此外,使用合成数据增强RoBERTa分类器,解决了数据稀疏性问题。

关键设计:RoBERTa分类器使用合成数据进行微调,以提高在特定平台上的性能。关键词过滤使用预定义的关键词列表,并根据平台的特定语言风格进行调整。两阶段LLM验证使用GPT-4o mini,并设计了特定的prompt,以引导LLM进行谣言判断。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

📊 实验亮点

实验结果表明,该谣言检测Agent能够有效地识别Truth Social平台上的选举谣言。研究发现,谣言的分享概率随着曝光次数的增加而显著上升,验证了“虚幻真相效应”。模拟结果显示,谣言能够在同质网络中快速传播,近四分之一的用户在四次传播迭代内被“感染”。具体的性能数据和对比基线在摘要中未提供,属于未知信息。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、舆情监控和虚假信息治理。通过部署类似的谣言检测Agent,可以有效识别和控制谣言的传播,维护网络空间的健康和安全。此外,该方法也可推广到其他领域的虚假信息检测,例如金融欺诈、医疗谣言等。

📄 摘要(原文)

Large language models (LLMs) offer unprecedented opportunities for analyzing social phenomena at scale. This paper demonstrates the value of LLMs in psychological measurement by (1) compiling the first large-scale dataset of election rumors on a niche alt-tech platform, (2) developing a multistage Rumor Detection Agent that leverages LLMs for high-precision content classification, and (3) quantifying the psychological dynamics of rumor propagation, specifically the "illusory truth effect" in a naturalistic setting. The Rumor Detection Agent combines (i) a synthetic data-augmented, fine-tuned RoBERTa classifier, (ii) precision keyword filtering, and (iii) a two-pass LLM verification pipeline using GPT-4o mini. The findings reveal that sharing probability rises steadily with each additional exposure, providing large-scale empirical evidence for dose-response belief reinforcement in ideologically homogeneous networks. Simulation results further demonstrate rapid contagion effects: nearly one quarter of users become "infected" within just four propagation iterations. Taken together, these results illustrate how LLMs can transform psychological science by enabling the rigorous measurement of belief dynamics and misinformation spread in massive, real-world datasets.