Evaluating Large Language Models Against Human Annotators in Latent Content Analysis: Sentiment, Political Leaning, Emotional Intensity, and Sarcasm
作者: Ljubisa Bojic, Olga Zagovora, Asta Zelenkauskaite, Vuk Vukovic, Milan Cabarkapa, Selma Veseljević Jerkovic, Ana Jovančevic
分类: cs.CL, cs.AI, cs.CY
发布日期: 2025-01-05
备注: 24 pages, 3 figures
💡 一句话要点
评估大型语言模型在潜在内容分析中与人工标注者的对比:情感、政治倾向、情感强度和讽刺
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 潜在内容分析 情感分析 政治倾向 情感强度 讽刺检测 人工标注 评估
📋 核心要点
- 现有方法在处理海量文本数据时,缺乏高效的潜在内容分析手段,难以快速提取有价值的信息。
- 本研究对比了多个LLM与人工标注者在情感、政治倾向、情感强度和讽刺检测等任务上的表现,评估其可靠性和一致性。
- 实验结果表明,LLM在情感和政治倾向分析中表现出与人类相当甚至更高的可靠性,但在情感强度和讽刺检测方面仍有差距。
📝 摘要(中文)
在快速发展的数字通信时代,每天都会产生大量的文本数据,这需要高效的潜在内容分析方法来提取有意义的见解。大型语言模型(LLM)为自动化这一过程提供了潜力,但缺乏对其在多个维度上与人工标注者相比的性能的全面评估。本研究评估了七种最先进的LLM(包括OpenAI的GPT-4、Gemini、Llama和Mixtral的变体)在分析情感、政治倾向、情感强度和讽刺检测方面相对于人工标注者的可靠性、一致性和质量。总共有33名人工标注者和8种LLM变体评估了100个精心挑选的文本项目,生成了3300个人工标注和19200个LLM标注。LLM在三个时间点进行评估,以检查时间一致性。使用Krippendorff's alpha测量了评分者间信度,并使用组内相关系数评估了随时间推移的一致性。结果表明,人类和LLM在情感分析和政治倾向评估中都表现出很高的可靠性,并且LLM表现出比人类更高的内部一致性。在情感强度方面,LLM表现出比人类更高的一致性,尽管人类对情感强度的评分明显更高。两组在讽刺检测方面都表现不佳,一致性很低。LLM在所有维度上都表现出出色的时间一致性,表明性能随时间推移保持稳定。研究结论是,LLM(尤其是GPT-4)可以有效地复制人类在情感和政治倾向方面的分析,但人类的专业知识对于情感强度的解释仍然至关重要。研究结果表明,LLM在某些潜在内容分析领域具有一致且高质量的性能潜力。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在潜在内容分析任务中的表现,并将其与人工标注者的表现进行比较。现有方法在处理大规模文本数据时,效率较低,且缺乏对LLM在不同维度上分析能力的全面评估。人工标注成本高昂,且存在主观性差异,因此需要探索利用LLM自动进行内容分析的可行性。
核心思路:论文的核心思路是系统性地比较LLM和人工标注者在情感分析、政治倾向、情感强度和讽刺检测四个维度上的表现。通过计算评分者间信度(Krippendorff's alpha)和组内相关系数,评估LLM的可靠性、一致性和时间稳定性。通过对比LLM和人工标注的结果,确定LLM在哪些方面可以有效替代人工,以及在哪些方面仍需要人工干预。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集包含100个文本项目的语料库。2) 人工标注:招募33名人工标注者对语料库进行标注。3) LLM标注:使用7种LLM变体(包括GPT-4、Gemini、Llama和Mixtral)对语料库进行标注,并在三个时间点重复标注以评估时间一致性。4) 评估指标:使用Krippendorff's alpha评估评分者间信度,使用组内相关系数评估时间一致性。5) 结果分析:对比LLM和人工标注的结果,分析LLM在不同维度上的表现。
关键创新:该研究的关键创新在于:1) 对比了多种最先进的LLM在多个潜在内容分析维度上的表现,提供了全面的评估结果。2) 评估了LLM的时间一致性,验证了其在长期应用中的稳定性。3) 采用了严格的评估指标(Krippendorff's alpha和组内相关系数),确保了评估结果的可靠性。
关键设计:在实验设计方面,选择了100个精心挑选的文本项目,涵盖了不同的主题和风格,以保证评估结果的泛化性。使用了Krippendorff's alpha作为评分者间信度的主要指标,因为它适用于不同数量的评分者和不同的数据类型。为了评估LLM的时间一致性,在三个时间点重复进行了标注,并计算了组内相关系数。
📊 实验亮点
实验结果表明,LLM在情感分析和政治倾向评估中表现出与人类相当甚至更高的可靠性,Krippendorff's alpha值较高。LLM在情感强度方面表现出比人类更高的一致性,但人类对情感强度的评分明显更高。所有LLM在所有维度上都表现出出色的时间一致性,表明性能随时间推移保持稳定。GPT-4在多个维度上表现最佳,尤其是在情感分析和政治倾向评估方面。
🎯 应用场景
该研究成果可应用于舆情监控、市场调研、社交媒体分析等领域。通过利用LLM自动进行情感分析和政治倾向评估,可以大幅提高效率,降低成本。在需要更细致的情感强度分析和讽刺检测的场景中,可以结合人工标注和LLM的优势,实现更准确的分析结果。未来,该研究可以扩展到更多语言和文化背景,进一步提升LLM在潜在内容分析中的应用价值。
📄 摘要(原文)
In the era of rapid digital communication, vast amounts of textual data are generated daily, demanding efficient methods for latent content analysis to extract meaningful insights. Large Language Models (LLMs) offer potential for automating this process, yet comprehensive assessments comparing their performance to human annotators across multiple dimensions are lacking. This study evaluates the reliability, consistency, and quality of seven state-of-the-art LLMs, including variants of OpenAI's GPT-4, Gemini, Llama, and Mixtral, relative to human annotators in analyzing sentiment, political leaning, emotional intensity, and sarcasm detection. A total of 33 human annotators and eight LLM variants assessed 100 curated textual items, generating 3,300 human and 19,200 LLM annotations, with LLMs evaluated across three time points to examine temporal consistency. Inter-rater reliability was measured using Krippendorff's alpha, and intra-class correlation coefficients assessed consistency over time. The results reveal that both humans and LLMs exhibit high reliability in sentiment analysis and political leaning assessments, with LLMs demonstrating higher internal consistency than humans. In emotional intensity, LLMs displayed higher agreement compared to humans, though humans rated emotional intensity significantly higher. Both groups struggled with sarcasm detection, evidenced by low agreement. LLMs showed excellent temporal consistency across all dimensions, indicating stable performance over time. This research concludes that LLMs, especially GPT-4, can effectively replicate human analysis in sentiment and political leaning, although human expertise remains essential for emotional intensity interpretation. The findings demonstrate the potential of LLMs for consistent and high-quality performance in certain areas of latent content analysis.