Who Attacks, and Why? Using LLMs to Identify Negative Campaigning in 18M Tweets across 19 Countries

📄 arXiv: 2507.17636v1 📥 PDF

作者: Victor Hartman, Petter Törnberg

分类: cs.CL

发布日期: 2025-07-23


💡 一句话要点

利用大型语言模型识别19国1800万条推文中的负面竞选活动

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 负面竞选 政治传播 跨语言分析 零样本学习

📋 核心要点

  1. 现有负面竞选识别方法成本高昂且难以扩展,限制了政治传播领域的实证研究。
  2. 该研究提出利用零样本大型语言模型(LLMs)进行跨语言的负面竞选识别,无需大量标注数据。
  3. 实验表明,LLMs在多种语言上的表现与母语人类编码员相当,优于传统监督学习方法。

📝 摘要(中文)

负面竞选是政治竞争的核心特征,但由于现有分类方法的高成本和有限的可扩展性,实证研究受到限制。本研究做出了两个关键贡献。首先,它引入了零样本大型语言模型(LLMs)作为一种跨语言分类负面竞选的新方法。通过使用十种语言的基准数据集,我们证明了LLMs的性能与以母语为人类编码员相当,并且优于传统的监督机器学习方法。其次,我们利用这种新方法进行了迄今为止最大规模的跨国负面竞选研究,分析了2017年至2022年间欧洲19个国家的议员发布的1800万条推文。结果揭示了一致的跨国模式:执政党不太可能使用负面信息,而意识形态极端和民粹主义政党——尤其是激进右翼政党——则表现出明显更高的负面程度。这些发现增进了我们对政党层面特征如何塑造多党制系统中战略沟通的理解。更广泛地说,该研究展示了LLMs在跨语言和文化背景下实现政治传播领域可扩展、透明和可复制研究的潜力。

🔬 方法详解

问题定义:该论文旨在解决政治传播领域中负面竞选识别的问题。现有方法,如人工标注和传统的监督机器学习,面临成本高、可扩展性差以及难以跨语言应用的挑战。因此,需要一种更高效、可扩展且具有跨语言能力的负面竞选识别方法。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的零样本学习能力,直接对文本进行分类,判断其是否属于负面竞选内容。LLMs在大量文本数据上预训练,具备强大的语言理解和生成能力,使其能够无需特定任务的训练数据,即可完成分类任务。这种方法降低了标注成本,提高了可扩展性,并能够跨语言应用。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集来自19个欧洲国家的议员在Twitter上发布的1800万条推文。2) 零样本分类:使用LLMs对每条推文进行分类,判断其是否包含负面竞选内容。3) 结果分析:分析不同政党、不同意识形态以及不同国家的负面竞选行为模式。

关键创新:该研究的关键创新在于将零样本大型语言模型应用于跨语言的负面竞选识别。与传统的监督学习方法相比,该方法无需大量标注数据,降低了成本,提高了可扩展性,并能够跨多种语言应用。此外,该研究还进行了迄今为止最大规模的跨国负面竞选研究,揭示了不同国家和政党之间的负面竞选行为模式。

关键设计:论文中关键的设计包括:1) 选择合适的LLM模型,例如GPT-3或类似的模型,并根据任务进行适当的prompt设计。2) 针对不同语言的文本,可能需要进行一些预处理,例如文本清洗和翻译。3) 在评估LLM的性能时,需要与人工标注结果进行对比,并使用合适的评价指标,例如准确率、召回率和F1值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究表明,LLMs在跨语言负面竞选识别任务中表现出色,与母语人类编码员的性能相当,并优于传统的监督机器学习方法。通过分析19个欧洲国家的1800万条推文,研究发现执政党较少使用负面信息,而意识形态极端和民粹主义政党,尤其是激进右翼政党,则更多地使用负面信息。

🎯 应用场景

该研究成果可应用于政治传播分析、舆情监控、虚假信息检测等领域。通过自动识别负面竞选信息,可以帮助公众更好地了解政治生态,提高对虚假信息的辨别能力。此外,该方法还可以用于评估政治竞选策略的效果,为政治家和竞选团队提供决策支持。未来,该方法有望扩展到其他类型的政治传播内容分析,例如政治立场识别和情感分析。

📄 摘要(原文)

Negative campaigning is a central feature of political competition, yet empirical research has been limited by the high cost and limited scalability of existing classification methods. This study makes two key contributions. First, it introduces zero-shot Large Language Models (LLMs) as a novel approach for cross-lingual classification of negative campaigning. Using benchmark datasets in ten languages, we demonstrate that LLMs achieve performance on par with native-speaking human coders and outperform conventional supervised machine learning approaches. Second, we leverage this novel method to conduct the largest cross-national study of negative campaigning to date, analyzing 18 million tweets posted by parliamentarians in 19 European countries between 2017 and 2022. The results reveal consistent cross-national patterns: governing parties are less likely to use negative messaging, while ideologically extreme and populist parties -- particularly those on the radical right -- engage in significantly higher levels of negativity. These findings advance our understanding of how party-level characteristics shape strategic communication in multiparty systems. More broadly, the study demonstrates the potential of LLMs to enable scalable, transparent, and replicable research in political communication across linguistic and cultural contexts.