A Few Hypocrites: Few-Shot Learning and Subtype Definitions for Detecting Hypocrisy Accusations in Online Climate Change Debates

📄 arXiv: 2409.16807v1 📥 PDF

作者: Paulina Garcia Corral, Avishai Green, Hendrik Meyer, Anke Stoll, Xiaoyue Yan, Myrthe Reuver

分类: cs.CL

发布日期: 2024-09-25

备注: cite the public version, published at CPSS 2024 @ KONVENS


💡 一句话要点

提出气候辩论中伪善指控检测任务,并利用少样本学习和LLM进行有效识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 伪善指控检测 气候变化辩论 少样本学习 大型语言模型 自然语言处理 文本分类 语料库构建

📋 核心要点

  1. 现有方法通常将伪善指控检测作为谬误论证检测的一个子任务,缺乏针对性和独立性研究。
  2. 本文将伪善指控检测定义为独立的NLP任务,并构建了包含个人和政治两种伪善类型的气候伪善指控语料库。
  3. 实验结果表明,GPT-4o和Llama-3等大型语言模型在少样本学习设置下,能够有效检测伪善指控,F1值最高达到0.68。

📝 摘要(中文)

气候危机是线上讨论中的一个重要议题,而伪善指控是这些辩论中的核心修辞元素。本文将伪善指控检测定义为NLP中的一个独立任务,并识别了不同类型的伪善指控。我们构建了气候伪善指控语料库(CHAC),包含420条Reddit气候辩论评论,由专家标注为两种不同类型的伪善指控:个人伪善和政治伪善。我们评估了使用6个示例的少样本上下文学习,以及3个指令调优的大型语言模型(LLM)在该数据集上检测伪善指控的效果。结果表明,GPT-4o和Llama-3模型在检测伪善指控方面表现出潜力(F1值达到0.68,而之前的工作F1值为0.44)。然而,对于像伪善指控这样复杂的语义概念,上下文很重要,我们发现模型在识别政治伪善指控方面比识别个人道德伪善指控更困难。我们的研究为伪善检测和气候变化讨论提供了新的见解,是大规模分析在线气候辩论中伪善指控的垫脚石。

🔬 方法详解

问题定义:论文旨在解决在线气候变化辩论中伪善指控的自动检测问题。现有方法通常将伪善指控检测作为更广泛的谬误论证检测的子任务,缺乏针对性研究,并且没有明确区分不同类型的伪善指控。这导致现有方法在检测精度和泛化能力上存在局限性。

核心思路:论文的核心思路是将伪善指控检测定义为一个独立的NLP任务,并构建一个专门针对气候变化辩论的伪善指控语料库。同时,利用大型语言模型(LLM)的少样本学习能力,通过少量示例来指导模型识别不同类型的伪善指控。这种方法旨在提高检测精度,并更好地理解伪善指控在气候变化讨论中的作用。

技术框架:整体框架包括数据收集与标注、模型选择与训练、以及实验评估三个主要阶段。首先,从Reddit气候辩论评论中收集数据,并由专家标注为个人伪善和政治伪善两种类型。然后,选择GPT-4o和Llama-3等大型语言模型,并使用少样本上下文学习方法进行训练。最后,通过F1值等指标评估模型在测试集上的性能。

关键创新:论文的关键创新在于:(1) 将伪善指控检测定义为一个独立的NLP任务,并明确区分了个人伪善和政治伪善两种类型;(2) 构建了一个专门针对气候变化辩论的伪善指控语料库CHAC;(3) 利用大型语言模型的少样本学习能力,在少量示例的情况下实现了较高的检测精度。与现有方法相比,该方法更具针对性,并且能够更好地适应在线辩论的复杂语境。

关键设计:论文使用了6个示例的少样本学习,即在模型的输入中包含6个带有标签的伪善指控示例,以指导模型进行预测。模型采用指令调优的方式进行训练,即在输入中包含明确的指令,例如“判断以下评论是否包含伪善指控”。实验中使用了GPT-4o和Llama-3等预训练的大型语言模型,并直接在CHAC数据集上进行评估,没有进行额外的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o和Llama-3模型在检测伪善指控方面表现出潜力,F1值最高达到0.68,相比之前工作的0.44有显著提升。然而,模型在识别政治伪善指控方面表现不如个人道德伪善指控,表明上下文对于理解复杂的语义概念至关重要。该研究强调了构建高质量标注数据集的重要性,并为后续研究提供了基准。

🎯 应用场景

该研究成果可应用于在线社交媒体平台的内容审核,自动识别和标记气候变化辩论中的伪善指控,从而促进更理性、客观的讨论。此外,该技术还可以用于分析政治宣传和舆论操纵,揭示其中的伪善行为,提高公众的辨别能力。未来,该研究可以扩展到其他社会议题的讨论中,例如疫苗接种、环境保护等。

📄 摘要(原文)

The climate crisis is a salient issue in online discussions, and hypocrisy accusations are a central rhetorical element in these debates. However, for large-scale text analysis, hypocrisy accusation detection is an understudied tool, most often defined as a smaller subtask of fallacious argument detection. In this paper, we define hypocrisy accusation detection as an independent task in NLP, and identify different relevant subtypes of hypocrisy accusations. Our Climate Hypocrisy Accusation Corpus (CHAC) consists of 420 Reddit climate debate comments, expert-annotated into two different types of hypocrisy accusations: personal versus political hypocrisy. We evaluate few-shot in-context learning with 6 shots and 3 instruction-tuned Large Language Models (LLMs) for detecting hypocrisy accusations in this dataset. Results indicate that the GPT-4o and Llama-3 models in particular show promise in detecting hypocrisy accusations (F1 reaching 0.68, while previous work shows F1 of 0.44). However, context matters for a complex semantic concept such as hypocrisy accusations, and we find models struggle especially at identifying political hypocrisy accusations compared to personal moral hypocrisy. Our study contributes new insights in hypocrisy detection and climate change discourse, and is a stepping stone for large-scale analysis of hypocrisy accusation in online climate debates.