Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models

📄 arXiv: 2605.22732v1 📥 PDF

作者: Juergen Dietrich

分类: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS

发布日期: 2026-05-21

备注: 13 pages, 1 figure


💡 一句话要点

利用LLM和声学情感模型进行政治演讲中的多模态情感分析,超越传统声学情感识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 政治演讲分析 多模态情感识别 大型语言模型 声学情感模型 Pathos维度 语义理解 文化偏见

📋 核心要点

  1. 传统声学情感识别模型在政治演讲等复杂场景中,难以准确捕捉语义层面的情感表达,存在文化偏见和数据质量问题。
  2. 论文提出结合大型语言模型(LLM)和声学情感模型,进行多模态情感分析,以更准确地评估政治演讲中的Pathos维度。
  3. 实验结果表明,LLM在捕捉政治情感方面优于传统声学模型,而声学特征在唤醒度估计方面仍然有效。

📝 摘要(中文)

本文研究了声学情感识别模型是否可以作为政治演讲分析中Pathos维度的代理,该维度由TRUST多智能体大型语言模型(LLM)流程进行操作。以Felix Banaszak在德国联邦议院的一次全体会议演讲(51段,245秒)为例,我们比较了三种分析模式:(1)emotion2vec_plus_large,一种声学语音情感识别(SER)模型,其连续的唤醒度和效价值通过事后Russell Circumplex投影导出;(2)Gemini 2.5 Flash,一种LLM,以开放式、上下文感知的方式分析完整的语音音频及其文本记录;(3)来自三方LLM监督器集成的TRUST-Pathos得分。Spearman等级相关性显示,Gemini效价与TRUST-Pathos显著相关(rho = +0.664,p < 0.001),而emotion2vec效价则不然(rho = +0.097,p = 0.499)。我们进一步通过使用Gemini在开放式注释范式中对柏林情感语音数据库(EMO-DB)进行系统的质量评估,证明了标准SER基准语料库存在表演性语音、文化偏见和类别不兼容的问题。我们的结果表明,基于LLM的多模态分析比单独使用声学模型能更好地捕捉语义定义的政治情感,而声学特征对于低层次的唤醒度估计仍然具有信息性。未来的工作将把这种方法扩展到结合面部表情和注视的基于视频的分析。

🔬 方法详解

问题定义:论文旨在解决传统声学情感识别模型在政治演讲分析中表现不佳的问题。现有方法主要依赖于声学特征,忽略了语义信息和上下文,导致无法准确捕捉政治演讲中复杂的情感表达,并且容易受到文化偏见和数据集质量的影响。

核心思路:论文的核心思路是将大型语言模型(LLM)与声学情感识别模型相结合,利用LLM强大的语义理解能力来弥补声学模型的不足。通过多模态分析,同时考虑语音的声学特征和文本内容,从而更准确地评估政治演讲中的情感维度。

技术框架:整体框架包括三个主要模块:1) 声学情感识别模块(emotion2vec_plus_large),用于提取语音的声学特征,并计算唤醒度和效价;2) LLM分析模块(Gemini 2.5 Flash),用于分析语音的文本记录和音频,以开放式、上下文感知的方式理解情感;3) TRUST-Pathos评估模块,使用三方LLM监督器集成来评估Pathos维度。最终,通过Spearman等级相关性分析,比较不同模块的输出结果。

关键创新:论文的关键创新在于将LLM引入到政治演讲的情感分析中,并将其与传统的声学情感识别模型相结合。这种多模态分析方法能够更好地捕捉语义层面的情感表达,克服了传统声学模型在复杂场景中的局限性。此外,论文还对现有的情感语音数据库进行了质量评估,揭示了其存在的局限性。

关键设计:论文使用了emotion2vec_plus_large模型提取声学特征,并通过Russell Circumplex投影导出唤醒度和效价。Gemini 2.5 Flash模型被用于分析语音的文本记录和音频,以开放式的方式理解情感。TRUST-Pathos评估模块使用三方LLM监督器集成,以提高评估的准确性。Spearman等级相关性被用于比较不同模块的输出结果。

📊 实验亮点

实验结果表明,Gemini 2.5 Flash的效价与TRUST-Pathos的得分具有显著的相关性(rho = +0.664,p < 0.001),而emotion2vec_plus_large的效价则不相关(rho = +0.097,p = 0.499)。这表明LLM在捕捉政治情感方面优于传统的声学模型。此外,对EMO-DB的质量评估揭示了现有情感语音数据库存在的表演性语音、文化偏见和类别不兼容等问题。

🎯 应用场景

该研究成果可应用于政治传播分析、舆情监控、人机交互等领域。通过准确识别政治演讲中的情感,可以帮助研究人员更好地理解政治家的意图和策略,评估公众的情绪反应,并开发更具同理心的人机交互系统。未来,该方法还可以扩展到其他类型的多模态情感分析任务中。

📄 摘要(原文)

We investigate whether acoustic emotion recognition models can serve as proxies for the Pathos dimension in political speech analysis, as operationalised by the TRUST multi-agent large language model (LLM) pipeline. Using a Bundestag plenary speech by Felix Banaszak (51 segments, 245 s) as a case study, we compare three analysis modalities: (1) emotion2vec_plus_large, an acoustic speech emotion recognition (SER) model whose continuous Arousal and Valence values are derived via post-hoc Russell Circumplex projection; (2) Gemini 2.5 Flash, an LLM analysing the full speech audio together with its transcript in an open-ended, context-aware fashion; and (3) TRUST-Pathos scores from a three-advocate LLM supervisor ensemble. Spearman rank correlations reveal that Gemini Valence correlates strongly with TRUST-Pathos (rho = +0.664, p < 0.001), whereas emotion2vec Valence does not (rho = +0.097, p = 0.499). We further demonstrate, via a systematic quality evaluation of the Berlin Database of Emotional Speech (EMO-DB) using Gemini in an open-ended annotation paradigm, that standard SER benchmark corpora suffer from acted speech, cultural bias, and category incompatibility. Our results suggest that LLM-based multimodal analysis captures semantically defined political emotion substantially better than acoustic models alone, while acoustic features remain informative for low-level Arousal estimation. Future work will extend this approach to video-based analysis incorporating facial expression and gaze.