From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs

📄 arXiv: 2604.25866v1 📥 PDF

作者: Bangzhao Shu, Arinjay Singh, Mai ElSherief

分类: cs.CL

发布日期: 2026-04-28

备注: 18 pages including appendix


💡 一句话要点

利用稀疏自编码器和因果追踪,剖析大型语言模型中的情感推理机制

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感识别 稀疏自编码器 因果追踪 特征引导

📋 核心要点

  1. 现有大型语言模型的情感识别能力缺乏对其内部机制的深入理解,阻碍了其在情感敏感应用中的可靠应用。
  2. 该论文提出使用稀疏自编码器和因果追踪技术,分析LLM内部情感表征的形成过程和关键特征。
  3. 实验结果表明,该方法能够有效识别影响情感预测的关键特征,并显著提升情感识别性能,同时保持语言建模能力。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于情感敏感的人机交互应用中,但人们对其内部如何表示情感识别知之甚少。本文利用稀疏自编码器(SAEs)研究LLMs中情感识别的内部机制。通过分析跨层的稀疏特征激活,我们识别出一个一致的三阶段信息流,其中与情感相关的特征仅在最后阶段出现。我们进一步表明,情感表征包含跨情感的共享特征和情感特定的特征。使用分阶段的因果追踪,我们识别出一小组强烈影响情感预测的特征,并表明它们的数量和因果影响因情感而异;特别是,厌恶比其他情感更弱且更分散地表示。最后,我们提出了一种可解释且数据高效的因果特征引导方法,该方法显着提高了多个模型的情感识别性能,同时在很大程度上保留了语言建模能力,并证明了这些改进可以推广到多个情感识别数据集。总的来说,我们的研究结果提供了一个对LLMs中情感识别的内部机制的系统分析,并引入了一种高效、可解释和可控的方法来提高模型性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)中情感识别机制不透明的问题。现有方法缺乏对LLM内部如何表征和处理情感信息的深入理解,这限制了LLM在情感敏感应用中的可靠性和可控性。因此,需要一种方法来剖析LLM的情感推理过程,识别关键的情感特征,并在此基础上提升情感识别性能。

核心思路:论文的核心思路是通过稀疏自编码器(SAEs)来提取LLM各层中的稀疏特征,并利用因果追踪技术来分析这些特征对情感预测的影响。通过这种方式,可以揭示LLM内部情感表征的形成过程,识别关键的情感特征,并在此基础上设计一种因果特征引导方法来提升情感识别性能。这种思路的关键在于利用SAEs提取可解释的特征,并利用因果追踪技术来确定这些特征与情感预测之间的因果关系。

技术框架:整体框架包含以下几个主要阶段:1) 使用SAEs提取LLM各层的稀疏特征;2) 分析跨层的稀疏特征激活,识别情感相关特征的出现阶段;3) 识别跨情感的共享特征和情感特定的特征;4) 使用分阶段的因果追踪,识别影响情感预测的关键特征;5) 提出一种因果特征引导方法,通过调整关键特征的激活来提升情感识别性能。

关键创新:最重要的技术创新点在于提出了一种可解释且数据高效的因果特征引导方法。该方法通过识别并调整影响情感预测的关键特征,能够在显著提高情感识别性能的同时,保持LLM的语言建模能力。与现有方法相比,该方法具有更高的可解释性,能够揭示LLM内部情感推理的机制,并且具有更高的数据效率,能够在少量数据上实现显著的性能提升。

关键设计:论文的关键设计包括:1) 使用稀疏自编码器提取LLM各层的稀疏特征,并设置合适的稀疏性惩罚项;2) 使用因果追踪技术来量化每个特征对情感预测的因果影响;3) 设计一种因果特征引导方法,通过调整关键特征的激活来提升情感识别性能,并设置合适的调整幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该论文提出的因果特征引导方法能够显著提高情感识别性能,同时保持语言建模能力。具体而言,该方法在多个情感识别数据集上取得了显著的性能提升,并且能够推广到不同的LLM模型。此外,实验还表明,不同情感的表征方式存在差异,例如,厌恶比其他情感更弱且更分散地表示。

🎯 应用场景

该研究成果可应用于情感聊天机器人、情感分析系统、心理健康评估等领域。通过理解和控制LLM的情感推理过程,可以开发出更具同理心和人情味的AI应用,提升用户体验,并为心理健康领域提供新的工具和方法。未来,该研究还可以扩展到其他认知任务,例如意图识别和观点挖掘。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in emotionally sensitive human-AI applications, yet little is known about how emotion recognition is internally represented. In this work, we investigate the internal mechanisms of emotion recognition in LLMs using sparse autoencoders (SAEs). By analyzing sparse feature activations across layers, we identify a consistent three-phase information flow, in which emotion-related features emerge only in the final phase. We further show that emotion representations comprise both shared features across emotions and emotion-specific features. Using phase-stratified causal tracing, we identify a small set of features that strongly influence emotion predictions, and show that both their number and causal impact vary across emotions; in particular, Disgust is more weakly and diffusely represented than other emotions. Finally, we propose an interpretable and data-efficient causal feature steering method that significantly improves emotion recognition performance across multiple models while largely preserving language modeling ability, and demonstrate that these improvements generalize across multiple emotion recognition datasets. Overall, our findings provide a systematic analysis of the internal mechanisms underlying emotion recognition in LLMs and introduce an efficient, interpretable, and controllable approach for improving model performance.