PartisanLens: A Multilingual Dataset of Hyperpartisan and Conspiratorial Immigration Narratives in European Media
作者: Michele Joshua Maggini, Paloma Piot, Anxo Pérez, Erik Bran Marino, Lúa Santamaría Montesinos, Ana Lisboa, Marta Vázquez Abuín, Javier Parapar, Pablo Gamallo
分类: cs.CL
发布日期: 2026-01-07
💡 一句话要点
PartisanLens:构建欧洲媒体中多语种极端党派和阴谋论移民叙事数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语种数据集 极端党派叙事 阴谋论 大型语言模型 自动标注
📋 核心要点
- 现有资源不足,且多集中于英语,缺乏对政治话语中极端党派主义、立场和修辞偏见的综合分析。
- 构建了一个多语种数据集PartisanLens,包含西班牙语、意大利语和葡萄牙语的极端党派新闻标题,并进行了多方面的政治话语注释。
- 评估了大型语言模型在数据集上的分类性能,并探索了LLM作为自动注释器的可行性,分析了其模拟人类注释模式的能力。
📝 摘要(中文)
为了解决错误信息的传播,检测极端党派叙事和人口替代阴谋论(PRCT)至关重要。这些复杂的叙事构成重大威胁,因为极端党派主义加剧了政治两极分化和对机构的不信任,而PRCT直接激发了现实世界的极端主义暴力,因此识别它们对于社会凝聚力和公共安全至关重要。然而,现有的资源稀缺,主要以英语为中心,并且通常孤立地分析极端党派主义、立场和修辞偏见,而不是将它们视为政治话语的相互关联的方面。为了弥合这一差距,我们推出了 extsc{PartisanLens},这是第一个包含1617条西班牙语、意大利语和葡萄牙语的极端党派新闻标题的多语种数据集,并在多个政治话语方面进行了注释。我们首先评估了广泛使用的大型语言模型(LLM)在此数据集上的分类性能,为极端党派和PRCT叙事的分类建立了稳健的基线。此外,我们评估了使用LLM作为此任务的自动注释器的可行性,分析了它们近似人类注释的能力。结果突出了它们的潜力和当前的局限性。接下来,超越标准判断,我们探索了LLM是否可以通过基于模拟注释者视角的社会经济和意识形态概况来模拟人类注释模式。最后,我们提供我们的资源和评估, extsc{PartisanLens}支持未来对欧洲背景下党派和阴谋叙事的检测研究。
🔬 方法详解
问题定义:论文旨在解决现有资源在检测欧洲媒体中多语种极端党派和阴谋论移民叙事方面的不足。现有方法主要集中在英语,且通常孤立地分析极端党派主义、立场和修辞偏见,缺乏对这些因素之间相互关联性的考虑。这导致了对相关叙事理解的片面性,阻碍了有效应对错误信息传播。
核心思路:论文的核心思路是构建一个多语种数据集,并利用大型语言模型(LLM)来分析和分类极端党派和阴谋论叙事。通过多语种数据集的构建,弥补了现有资源主要集中于英语的局限性。利用LLM,可以更全面地分析政治话语的各个方面,并探索其模拟人类注释模式的能力。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集西班牙语、意大利语和葡萄牙语的极端党派新闻标题。2) 数据标注:对新闻标题进行多方面的政治话语注释,包括极端党派主义、立场和修辞偏见等。3) 模型评估:评估LLM在数据集上的分类性能,建立基线。4) 自动标注:探索LLM作为自动注释器的可行性,分析其模拟人类注释模式的能力。5) 结果分析:分析实验结果,评估LLM的潜力和局限性。
关键创新:该论文的关键创新点在于:1) 构建了第一个多语种的极端党派和阴谋论移民叙事数据集,弥补了现有资源的不足。2) 探索了LLM在自动标注和模拟人类注释模式方面的能力,为未来的研究提供了新的思路。3) 综合考虑了政治话语的各个方面,而不是孤立地分析极端党派主义、立场和修辞偏见。
关键设计:论文的关键设计包括:1) 数据集的构建:精心挑选了西班牙语、意大利语和葡萄牙语的新闻标题,并进行了多方面的政治话语注释。2) 模型选择:选择了广泛使用的大型语言模型进行评估。3) 评估指标:采用了合适的评估指标来衡量LLM的分类性能和模拟人类注释模式的能力。4) 实验设计:设计了合理的实验来探索LLM作为自动注释器的可行性。
📊 实验亮点
研究建立了多语种数据集PartisanLens,并评估了LLM在分类极端党派和PRCT叙事方面的性能,为该领域的研究建立了基线。实验结果表明,LLM在一定程度上可以模拟人类注释模式,但仍存在局限性。该研究为未来利用LLM进行自动标注和分析政治话语提供了有价值的参考。
🎯 应用场景
该研究成果可应用于多个领域,包括:1) 错误信息检测:帮助识别和应对极端党派和阴谋论叙事的传播。2) 政治风险评估:评估特定政治话语对社会凝聚力和公共安全的影响。3) 舆情分析:分析公众对移民等议题的看法和态度。4) 自动化内容审核:辅助内容审核系统识别和过滤有害信息。未来,该研究可促进更有效和公平的在线信息环境。
📄 摘要(原文)
Detecting hyperpartisan narratives and Population Replacement Conspiracy Theories (PRCT) is essential to addressing the spread of misinformation. These complex narratives pose a significant threat, as hyperpartisanship drives political polarisation and institutional distrust, while PRCTs directly motivate real-world extremist violence, making their identification critical for social cohesion and public safety. However, existing resources are scarce, predominantly English-centric, and often analyse hyperpartisanship, stance, and rhetorical bias in isolation rather than as interrelated aspects of political discourse. To bridge this gap, we introduce \textsc{PartisanLens}, the first multilingual dataset of \num{1617} hyperpartisan news headlines in Spanish, Italian, and Portuguese, annotated in multiple political discourse aspects. We first evaluate the classification performance of widely used Large Language Models (LLMs) on this dataset, establishing robust baselines for the classification of hyperpartisan and PRCT narratives. In addition, we assess the viability of using LLMs as automatic annotators for this task, analysing their ability to approximate human annotation. Results highlight both their potential and current limitations. Next, moving beyond standard judgments, we explore whether LLMs can emulate human annotation patterns by conditioning them on socio-economic and ideological profiles that simulate annotator perspectives. At last, we provide our resources and evaluation, \textsc{PartisanLens} supports future research on detecting partisan and conspiratorial narratives in European contexts.