LLMs Capture Emotion Labels, Not Emotion Uncertainty: Distributional Analysis and Calibration of Human-LLM Judgment Gaps

📄 arXiv: 2604.27345v2 📥 PDF

作者: Keito Inoshita, Xiaokang Zhou, Akira Kawai, Katsutoshi Yada

分类: cs.CL

发布日期: 2026-04-30 (更新: 2026-05-01)


💡 一句话要点

研究表明:大语言模型擅长捕捉情感标签,但难以模拟情感不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感分析 大型语言模型 情感不确定性 分布比较 后校准

📋 核心要点

  1. 现有情感分析评估方法忽略了人类标注的情感不确定性,将多个标注简化为单一标准答案。
  2. 论文核心思想是比较人类和LLM的情感判断分布,分析LLM捕捉情感不确定性的能力。
  3. 实验结果表明,零样本LLM与人类分布差异显著,领域内微调能有效缩小差距,后校准方法可进一步提升性能。

📝 摘要(中文)

人类标注者在情感标签上经常存在分歧,然而,对大型语言模型(LLM)情感标注的大多数评估都将这些判断简化为单一标准答案,忽略了分歧所蕴含的分布信息。本文旨在研究LLM是否能捕捉这种分歧的结构,而不仅仅是多数标签。通过比较人类标注者和四个零样本LLM以及一个微调RoBERTa基线在两个互补基准(GoEmotions和EmoBank,总计640,000个LLM响应)上的情感判断分布,发现零样本模型与人类分布存在显著差异,并且需要领域内微调而非模型规模来缩小差距。本文通过量化透明度得分,形式化了一个词汇基础梯度,该梯度可以预测每个类别的人类-LLM一致性:LLM能够可靠地捕捉具有显式词汇标记的情感,但系统性地无法处理需要上下文推理的语用上复杂的情感。此外,本文还提出了三种轻量级的后校准方法,可将分布差距最多减少14%,并为LLM情感标注何时可以以及何时不能替代人工标注提供了可操作的指导。

🔬 方法详解

问题定义:现有情感分析方法通常将人类标注的情感标签视为单一的“金标准”,忽略了标注者之间的分歧,即情感的不确定性。这种简化处理方式无法充分反映情感的复杂性和主观性,也无法准确评估模型对情感细微差别的理解能力。现有方法的痛点在于无法有效利用人类标注中的分布信息,导致模型可能过度拟合多数标签,而忽略了少数但可能重要的情感表达。

核心思路:本文的核心思路是通过比较人类标注者和LLM的情感判断分布,来评估LLM捕捉情感不确定性的能力。具体来说,作者不是简单地比较LLM预测的标签与“金标准”标签,而是比较LLM预测的标签分布与人类标注的标签分布。如果LLM能够很好地捕捉人类标注中的分歧模式,那么它的预测分布应该与人类标注分布相似。这样设计的目的是更全面地评估LLM对情感的理解,而不仅仅是判断其是否能够预测正确的标签。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:使用GoEmotions和EmoBank两个情感数据集,这两个数据集都包含多个标注者对每个文本的情感标签。2) 模型预测:使用四个零样本LLM和一个微调的RoBERTa模型对数据集中的文本进行情感预测,得到每个文本的情感标签分布。3) 分布比较:使用KL散度等指标比较LLM预测的标签分布与人类标注的标签分布,评估LLM捕捉情感不确定性的能力。4) 误差分析:通过计算词汇基础梯度,分析LLM在不同情感类别上的表现差异,并找出LLM容易出错的情感类别。5) 后校准:提出三种轻量级的后校准方法,用于调整LLM的预测分布,使其更接近人类标注分布。

关键创新:本文最重要的技术创新点在于提出了通过比较人类和LLM的情感判断分布来评估LLM情感理解能力的方法。与现有方法相比,该方法能够更全面地评估LLM对情感的理解,并能够发现LLM在不同情感类别上的表现差异。此外,本文还提出了词汇基础梯度的概念,用于分析LLM在不同情感类别上的表现差异,并提出了三种轻量级的后校准方法,用于提升LLM的情感预测性能。

关键设计:关键设计包括:1) 使用KL散度作为比较人类和LLM情感判断分布的指标。2) 定义词汇基础梯度,用于量化情感类别与词汇标记之间的关联程度。3) 提出三种后校准方法,包括温度缩放、矩阵缩放和分布对齐。这些方法旨在调整LLM的预测分布,使其更接近人类标注分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,零样本LLM在情感判断分布上与人类存在显著差异,需要领域内微调才能缩小差距。词汇基础梯度分析表明,LLM擅长捕捉具有显式词汇标记的情感,但在处理需要上下文推理的复杂情感时表现不佳。提出的后校准方法可将分布差距最多减少14%。

🎯 应用场景

该研究成果可应用于情感分析、舆情监控、智能客服等领域。通过更准确地理解用户的情感,可以提升用户体验,优化产品设计,并及时发现潜在的社会风险。未来,该研究可以扩展到其他自然语言处理任务,例如文本摘要、机器翻译等,以提升模型的理解能力和生成质量。

📄 摘要(原文)

Human annotators frequently disagree on emotion labels, yet most evaluations of Large Language Model (LLM) emotion annotation collapse these judgments into a single gold standard, discarding the distributional information that disagreement encodes. We ask whether LLMs capture the structure of this disagreement, not just majority labels, by comparing emotion judgment distributions between human annotators and four zero-shot LLMs, plus a fine-tuned RoBERTa baseline, across two complementary benchmarks: GoEmotions and EmoBank, totaling 640,000 LLM responses. Zero-shot models diverge substantially from human distributions, and in-domain fine-tuning, not model scale, is required to close the gap. We formalize a lexical-grounding gradient through a quantitative transparency score that predicts per-category human--LLM agreement: LLMs reliably capture emotions with explicit lexical markers but systematically fail on pragmatically complex emotions requiring contextual inference, a pattern that replicates across both categorical and continuous emotion frameworks. We further propose three lightweight post-hoc calibration methods that reduce the distributional gap by up to 14\%, and provide actionable guidelines for when LLM emotion annotations can, and cannot, substitute for human labeling.