The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events

📄 arXiv: 2605.12452v1 📥 PDF

作者: Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-05-12


💡 一句话要点

提出算法漫画方法,通过对比真实与生成政治言论,评估LLM在危机事件中生成内容的人口真实性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治言论 危机事件 算法审计 计算社会科学

📋 核心要点

  1. 现有AI文本检测方法侧重于句子层面特征,但随着LLM发展,这些特征变得不可靠,难以有效区分真实与合成政治言论。
  2. 提出“算法漫画”方法,从计算社会科学视角,对比分析真实与LLM生成的政治言论在情感、结构、词汇和跨事件依赖性上的差异。
  3. 实验表明,LLM生成的政治言论在人口层面上不真实,情感更负面、结构更规则、词汇更抽象,且差异程度与事件类型相关。

📝 摘要(中文)

大型语言模型(LLMs)能够大规模生成流畅的政治文本,引发了人们对危机和社会冲突期间合成言论的担忧。现有的AI文本检测通常侧重于句子层面的线索,如困惑度、突发性和token不规则性,但随着生成系统的改进,这些信号可能会减弱。本文采用计算社会科学的视角,探讨合成政治言论是否表现得像观察到的在线人群。构建了一个包含九个危机事件的1,789,406个帖子配对语料库:COVID-19、1月6日国会大厦袭击事件、2020年和2024年美国大选、Dobbs/Roe v. Wade、2020年BLM抗议活动、美国中期选举、犹他州枪击事件以及美国-伊朗战争。对于每个事件,将来自社交平台的观察到的言论与为相同上下文生成的合成言论进行比较。评估了四个维度:情感强度、结构规律性、词汇意识形态框架和跨事件依赖性,使用平均差距和离散证据。结果表明,合成言论在事件中是流畅的,但在人口层面上是不真实的。与观察到的言论相比,它通常更消极、情感分散性更低、结构上更规则、词汇上更抽象。观察到的言论则表现出更广泛的情感变化、更长的结构分布以及更具上下文特异性的口语词汇标记。这些差异取决于事件:对于快速发展的、分散的危机而言更大,对于正式的或机构调解的事件而言更小。用一个简单的事件级别度量,即“漫画差距”来概括这些差异。研究结果表明,合成政治言论的主要局限性不是语法或流畅性,而是人口真实性的降低。人口层面的审计补充了传统的文本检测,并为评估生成言论的社会真实性提供了一个CSS框架。

🔬 方法详解

问题定义:现有AI文本检测方法在区分LLM生成的政治言论和真实言论时面临挑战。随着LLM能力的提升,传统的基于句子层面特征(如困惑度、突发性)的检测方法变得越来越不可靠。因此,需要一种新的方法来评估LLM生成政治言论的真实性,尤其是在危机事件期间。

核心思路:本文的核心思路是将LLM生成的政治言论视为一种“算法漫画”,即在某些方面夸大或简化了真实政治言论的特征。通过对比分析真实言论和LLM生成言论在多个维度上的差异,可以揭示LLM生成内容的局限性,并评估其人口真实性。这种方法借鉴了计算社会科学的视角,关注言论在群体层面的表现,而不是单个句子的语法或流畅性。

技术框架:该方法主要包含以下几个阶段: 1. 数据收集:构建一个包含多个危机事件的配对语料库,每个事件包含来自社交平台的真实言论和LLM生成的合成言论。 2. 特征提取:针对每个事件,提取真实言论和合成言论在四个维度上的特征:情感强度、结构规律性、词汇意识形态框架和跨事件依赖性。 3. 差异评估:使用平均差距和离散证据来量化真实言论和合成言论在每个维度上的差异。 4. 漫画差距计算:将不同维度上的差异综合成一个事件级别的度量,即“漫画差距”,用于评估LLM生成言论的人口真实性。

关键创新:该方法的关键创新在于其评估LLM生成政治言论真实性的视角。与传统的文本检测方法不同,该方法不关注单个句子的特征,而是关注言论在群体层面的表现。通过对比分析真实言论和LLM生成言论在多个维度上的差异,可以更全面地评估LLM生成内容的人口真实性。此外,引入“漫画差距”这一度量,可以方便地比较不同事件中LLM生成言论的真实性。

关键设计:在特征提取方面,情感强度使用情感分析工具进行量化;结构规律性通过分析帖子长度、句子数量等指标来评估;词汇意识形态框架通过分析帖子中使用的关键词和短语来确定;跨事件依赖性通过分析帖子与其他事件的相关性来评估。漫画差距的计算方式未知,论文中可能没有详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM生成的政治言论在情感强度、结构规律性和词汇抽象性等方面与真实言论存在显著差异。具体而言,LLM生成的言论通常更负面、情感分散性更低、结构更规则、词汇更抽象。此外,研究发现这些差异程度与事件类型相关,对于快速发展的、分散的危机而言更大,对于正式的或机构调解的事件而言更小。

🎯 应用场景

该研究成果可应用于评估LLM在政治、社会等敏感领域的应用风险,帮助识别和防范虚假信息传播。政府机构、社交媒体平台和研究人员可以利用该方法来审计LLM生成内容的真实性,从而维护健康的在线生态环境,并为公众提供更可靠的信息。

📄 摘要(原文)

Large Language Models (LLMs) can generate fluent political text at scale, raising concerns about synthetic discourse during crises and social conflict. Existing AI-text detection often focuses on sentence-level cues such as perplexity, burstiness, or token irregularities, but these signals may weaken as generative systems improve. We instead adopt a Computational Social Science perspective and ask whether synthetic political discourse behaves like an observed online population. We construct a paired corpus of 1,789,406 posts across nine crisis events: COVID-19, the Jan. 6 Capitol attack, the 2020 and 2024 U.S. elections, Dobbs/Roe v. Wade, the 2020 BLM protests, U.S. midterms, the Utah shooting, and the U.S.-Iran war. For each event, we compare observed discourse from social platforms with synthetic discourse generated for the same context. We evaluate four dimensions: emotional intensity, structural regularity, lexical-ideological framing, and cross-event dependency, using mean gaps and dispersion evidence. Across events, synthetic discourse is fluent but population-level unrealistic. It is generally more negative and less dispersed in sentiment, structurally more regular, and lexically more abstract than observed discourse. Observed discourse instead shows broader emotional variation, longer-tailed structural distributions, and more context-specific, colloquial lexical markers. These differences are event-dependent: larger for fast-moving, decentralized crises and smaller for formal or institutionally mediated events. We summarize them with a simple event-level measure, the Caricature Gap. Our findings suggest that the main limitation of synthetic political discourse is not grammar or fluency, but reduced population realism. Population-level auditing complements traditional text-detection and provides a CSS framework for evaluating the social realism of generated discourse.