LLMs Capture Emotion Labels, Not Emotion Uncertainty: Distributional Analysis and Calibration of Human--LLM Judgment Gaps
作者: Keito Inoshita, Xiaokang Zhou, Akira Kawai, Katsutoshi Yada
分类: cs.CL
发布日期: 2026-04-30
💡 一句话要点
研究表明LLM主要捕捉情感标签而非情感不确定性,并提出校准方法缩小人机差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感识别 大型语言模型 情感不确定性 分布分析 校准方法 人机差距 词汇基础 迁移学习
📋 核心要点
- 现有情感分析方法忽略了人类标注的情感不确定性,将所有标注结果简化为单一标准答案。
- 该研究对比了人类与LLM的情感判断分布,分析了LLM捕捉情感不确定性的能力。
- 实验表明,零样本LLM与人类判断存在显著差异,通过微调和校准可以有效缩小差距。
📝 摘要(中文)
人类标注者在情感标签上经常存在分歧,然而,对大型语言模型(LLM)情感标注的大多数评估将这些判断简化为单一标准答案,忽略了分歧所编码的分布信息。本文通过比较人类标注者和四个零样本LLM以及一个微调RoBERTa基线在GoEmotions和EmoBank两个互补基准上的情感判断分布,探究LLM是否能捕捉这种分歧的结构,而不仅仅是多数标签。结果表明,零样本模型与人类分布存在显著差异,并且需要领域内微调而非模型规模来缩小差距。本文通过量化透明度分数形式化了词汇基础梯度,该分数可以预测每类别人机一致性:LLM能够可靠地捕捉具有显式词汇标记的情感,但系统性地无法处理需要上下文推理的语用复杂情感,这种模式在分类和连续情感框架中均得到验证。此外,本文提出了三种轻量级的后校准方法,最多可减少14%的分布差距,并为LLM情感标注何时可以以及何时不能替代人工标注提供可操作的指导。
🔬 方法详解
问题定义:论文旨在解决LLM在情感识别中无法有效捕捉人类情感判断不确定性的问题。现有方法通常将人类标注视为单一“金标准”,忽略了标注者之间的分歧,导致对LLM情感理解能力的评估不准确。这种简化忽略了情感的复杂性和主观性,使得LLM难以处理需要上下文推理的语用复杂情感。
核心思路:论文的核心思路是通过比较人类标注者和LLM的情感判断分布,分析LLM捕捉情感不确定性的能力。通过量化人机判断的差异,揭示LLM在处理不同类型情感时的优势和不足。此外,论文还提出了后校准方法,旨在缩小人机判断的分布差距,提高LLM情感识别的准确性和可靠性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:使用GoEmotions和EmoBank两个情感数据集,包含人类标注的情感标签和文本数据。2) 模型选择:选择四个零样本LLM(具体模型未知)和一个微调的RoBERTa模型作为基线。3) 分布比较:比较人类标注者和LLM的情感判断分布,使用KL散度等指标量化分布差异。4) 透明度分析:通过词汇基础梯度量化LLM对不同情感类别的依赖程度。5) 后校准:提出三种后校准方法,调整LLM的输出分布,使其更接近人类分布。
关键创新:论文的关键创新在于:1) 关注LLM对情感不确定性的捕捉能力,而非仅仅关注多数标签。2) 提出词汇基础梯度,用于解释LLM在不同情感类别上的表现差异。3) 提出三种轻量级的后校准方法,有效缩小了人机判断的分布差距。
关键设计:论文的关键设计包括:1) 使用GoEmotions和EmoBank两个互补数据集,分别代表分类和连续情感框架。2) 选择多个LLM进行对比,评估模型规模和微调对情感识别的影响。3) 使用KL散度等指标量化分布差异,并进行显著性检验。4) 后校准方法的具体细节未知,但强调了轻量级和易于实现的特点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,零样本LLM与人类情感判断分布存在显著差异,需要领域内微调才能缩小差距。通过词汇基础梯度分析,发现LLM更擅长识别具有显式词汇标记的情感,而难以处理需要上下文推理的语用复杂情感。提出的后校准方法最多可减少14%的分布差距,显著提高了LLM情感识别的准确性。
🎯 应用场景
该研究成果可应用于情感对话系统、情感客服、舆情分析等领域。通过提高LLM情感识别的准确性和可靠性,可以提升人机交互的自然性和流畅性,更好地理解用户的情感需求,并做出更恰当的响应。未来的研究可以进一步探索更有效的校准方法,并将其应用于更复杂的情感场景。
📄 摘要(原文)
Human annotators frequently disagree on emotion labels, yet most evaluations of Large Language Model (LLM) emotion annotation collapse these judgments into a single gold standard, discarding the distributional information that disagreement encodes. We ask whether LLMs capture the structure of this disagreement, not just majority labels, by comparing emotion judgment distributions between human annotators and four zero-shot LLMs, plus a fine-tuned RoBERTa baseline, across two complementary benchmarks: GoEmotions and EmoBank, totaling 640,000 LLM responses. Zero-shot models diverge substantially from human distributions, and in-domain fine-tuning, not model scale, is required to close the gap. We formalize a lexical-grounding gradient through a quantitative transparency score that predicts per-category human--LLM agreement: LLMs reliably capture emotions with explicit lexical markers but systematically fail on pragmatically complex emotions requiring contextual inference, a pattern that replicates across both categorical and continuous emotion frameworks. We further propose three lightweight post-hoc calibration methods that reduce the distributional gap by up to 14\%, and provide actionable guidelines for when LLM emotion annotations can, and cannot, substitute for human labeling.