Fearful Falcons and Angry Llamas: Emotion Category Annotations of Arguments by Humans and LLMs
作者: Lynn Greschner, Roman Klinger
分类: cs.CL
发布日期: 2024-12-20 (更新: 2025-04-22)
备注: accepted to NLP4DH 2025
💡 一句话要点
利用众包和LLM标注论证中的情感类别,提升情感分析的细粒度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感分析 论证挖掘 大型语言模型 众包标注 情感类别
📋 核心要点
- 现有论证分析主要关注情感强度,忽略了离散情感类别对论证效果的影响。
- 论文通过众包构建德语论证情感类别标注数据集,并探索LLM自动标注方法。
- 实验表明情感类别能提升情感性预测,但LLM对负面情感存在高召回低精确的偏见。
📝 摘要(中文)
论证会引发情感,从而影响论证本身的效果。不仅情感强度,情感类别也会影响论证的效果,例如改变立场的意愿。虽然二元情感性已在论证中得到研究,但尚未有工作关注此类数据中的离散情感类别(例如,“愤怒”)。为了填补这一空白,我们在一个德语论证语料库中众包了情感类别的主观标注,并评估了基于LLM的自动标注方法。具体来说,我们比较了三种提示策略(零样本、一次样本、思维链)在三个大型指令微调语言模型(Falcon-7b-instruct、Llama-3.1-8B-instruct、GPT-4o-mini)上的表现。我们进一步改变了输出空间的定义,使其为二元的(论证中是否存在情感?)、封闭领域的(论证中存在给定标签集中的哪种情感?),或开放领域的(论证中存在哪种情感?)。我们发现情感类别增强了论证中情感性的预测,强调了论证中离散情感标注的必要性。在所有提示设置和模型中,自动预测显示出对预测愤怒和恐惧的高召回率但低精确率,表明存在对负面情绪的强烈偏见。
🔬 方法详解
问题定义:论文旨在解决论证分析中缺乏对离散情感类别标注的问题。现有方法主要关注情感的二元判断(有/无情感)或情感强度,忽略了愤怒、恐惧等具体情感类别对论证效果的细粒度影响。这种忽略导致情感分析不够全面,无法充分理解论证的潜在影响。
核心思路:论文的核心思路是首先通过众包方式构建一个包含离散情感类别标注的德语论证语料库,然后利用大型语言模型(LLM)探索自动标注情感类别的方法。通过对比不同提示策略和模型,评估LLM在情感类别识别方面的能力,并分析其存在的偏见。
技术框架:整体框架包含数据标注和模型评估两个主要阶段。数据标注阶段采用众包方式,对德语论证语料库进行情感类别标注。模型评估阶段,使用三种提示策略(零样本、一次样本、思维链)在三个LLM(Falcon-7b-instruct、Llama-3.1-8B-instruct、GPT-4o-mini)上进行实验。实验中,输出空间被定义为二元、封闭领域和开放领域三种类型,以评估不同设置下的模型性能。
关键创新:论文的关键创新在于首次在论证分析中引入了离散情感类别的标注和自动识别。通过众包构建了高质量的德语论证情感类别数据集,并系统地评估了LLM在情感类别识别方面的能力。此外,论文还揭示了LLM在情感识别中存在的对负面情感的偏见。
关键设计:论文的关键设计包括:1) 采用三种不同的提示策略(零样本、一次样本、思维链)来引导LLM进行情感类别预测;2) 定义三种不同的输出空间(二元、封闭领域、开放领域)来评估模型在不同约束条件下的性能;3) 使用精确率、召回率等指标来评估模型的情感类别识别效果,并分析模型存在的偏见。
🖼️ 关键图片
📊 实验亮点
实验结果表明,情感类别标注能够增强论证中情感性的预测。LLM在预测愤怒和恐惧等负面情感时表现出较高的召回率,但精确率较低,表明模型存在对负面情感的偏见。不同提示策略和模型在不同输出空间下的性能存在差异,表明需要根据具体任务选择合适的模型和提示策略。
🎯 应用场景
该研究成果可应用于舆情分析、政治辩论分析、在线评论情感分析等领域。通过识别论证中的情感类别,可以更深入地理解论证的影响力,预测公众态度,并为自动化论证生成提供更丰富的情感控制手段。未来,该研究可扩展到其他语言和领域,提升情感分析的准确性和应用范围。
📄 摘要(原文)
Arguments evoke emotions, influencing the effect of the argument itself. Not only the emotional intensity but also the category influence the argument's effects, for instance, the willingness to adapt stances. While binary emotionality has been studied in arguments, there is no work on discrete emotion categories (e.g., "Anger") in such data. To fill this gap, we crowdsource subjective annotations of emotion categories in a German argument corpus and evaluate automatic LLM-based labeling methods. Specifically, we compare three prompting strategies (zero-shot, one-shot, chain-of-thought) on three large instruction-tuned language models (Falcon-7b-instruct, Llama-3.1-8B-instruct, GPT-4o-mini). We further vary the definition of the output space to be binary (is there emotionality in the argument?), closed-domain (which emotion from a given label set is in the argument?), or open-domain (which emotion is in the argument?). We find that emotion categories enhance the prediction of emotionality in arguments, emphasizing the need for discrete emotion annotations in arguments. Across all prompt settings and models, automatic predictions show a high recall but low precision for predicting anger and fear, indicating a strong bias toward negative emotions.