UKElectionNarratives: A Dataset of Misleading Narratives Surrounding Recent UK General Elections
作者: Fatima Haouari, Carolina Scarton, Nicolò Faggiani, Nikolaos Nikolaidis, Bonka Kotseva, Ibrahim Abu Farha, Jens Linge, Kalina Bontcheva
分类: cs.CL, cs.SI
发布日期: 2025-05-08
备注: This work was accepted at the International AAAI Conference on Web and Social Media (ICWSM 2025)
💡 一句话要点
构建英国大选误导性叙事数据集,并评估大型语言模型检测能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 误导性叙事 英国大选 数据集构建 自然语言处理 大型语言模型
📋 核心要点
- 选举期间的误导性叙事会严重影响公众舆论,现有方法缺乏对这些叙事的有效识别和分类。
- 论文构建了一个包含2019和2024年英国大选期间误导性叙事的数据集,并提出了相应的分类体系。
- 通过基准测试,评估了预训练模型和大型语言模型(特别是GPT-4o)在检测此类叙事方面的能力。
📝 摘要(中文)
误导性叙事在选举期间对塑造公众舆论起着至关重要的作用,因为它们会影响选民对候选人和政党的看法。因此,准确检测这些叙事的需求十分迫切。为了解决这个问题,我们首次提出了一个关于欧洲近期选举中常见的误导性叙事分类体系。基于这个分类体系,我们构建并分析了 UKElectionNarratives:这是第一个人工标注的、关于2019年和2024年英国大选中流传的误导性叙事的数据集。我们还对预训练模型和大型语言模型(重点关注 GPT-4o)进行了基准测试,研究它们在检测与选举相关的误导性叙事方面的有效性。最后,我们讨论了潜在的用例,并为未来使用所提出的编码手册和数据集的研究方向提出了建议。
🔬 方法详解
问题定义:论文旨在解决英国大选期间误导性叙事检测的问题。现有方法缺乏针对选举特定语境的细粒度分类体系和高质量标注数据集,导致模型难以准确识别和分类这些误导性信息。
核心思路:论文的核心思路是首先构建一个全面的误导性叙事分类体系,然后基于此体系人工标注一个高质量的数据集。通过这个数据集,可以训练和评估模型在检测和分类选举相关误导性叙事方面的能力。
技术框架:该研究的技术框架主要包含以下几个阶段:1) 定义误导性叙事分类体系:通过分析历史选举数据和相关文献,总结出常见的误导性叙事类型。2) 构建数据集:人工标注2019年和2024年英国大选期间的社交媒体文本,标注信息包括文本是否包含误导性叙事以及具体的叙事类型。3) 模型评估:使用预训练模型和大型语言模型(如GPT-4o)在构建的数据集上进行训练和评估,比较不同模型在检测和分类误导性叙事方面的性能。
关键创新:该论文的关键创新在于:1) 提出了一个针对英国大选语境的误导性叙事分类体系,该体系更加细粒度和具体。2) 构建了第一个人工标注的、关于英国大选期间误导性叙事的数据集,为相关研究提供了宝贵的数据资源。3) 系统地评估了现有模型在检测此类叙事方面的能力,为未来的模型改进提供了参考。
关键设计:论文的关键设计包括:1) 叙事分类体系的设计:需要仔细考虑各种可能的误导性叙事类型,并确保分类体系的互斥性和完备性。2) 数据集标注:需要制定详细的标注指南,并进行严格的质量控制,以保证标注的准确性和一致性。3) 模型评估:需要选择合适的评估指标,并进行充分的实验,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
论文构建了首个英国大选误导性叙事数据集,并对GPT-4o等大型语言模型进行了基准测试。实验结果展示了现有模型在检测选举相关误导性叙事方面的局限性,为未来研究提供了改进方向。该数据集和分类体系为后续研究奠定了基础。
🎯 应用场景
该研究成果可应用于选举舆情监控、虚假信息治理、社交媒体内容审核等领域。通过自动检测和分类误导性叙事,可以帮助相关机构及时发现和应对虚假信息,维护选举的公平性和公正性,提升公众的媒介素养和信息辨别能力,从而促进健康的社会舆论环境。
📄 摘要(原文)
Misleading narratives play a crucial role in shaping public opinion during elections, as they can influence how voters perceive candidates and political parties. This entails the need to detect these narratives accurately. To address this, we introduce the first taxonomy of common misleading narratives that circulated during recent elections in Europe. Based on this taxonomy, we construct and analyse UKElectionNarratives: the first dataset of human-annotated misleading narratives which circulated during the UK General Elections in 2019 and 2024. We also benchmark Pre-trained and Large Language Models (focusing on GPT-4o), studying their effectiveness in detecting election-related misleading narratives. Finally, we discuss potential use cases and make recommendations for future research directions using the proposed codebook and dataset.