Computational emotion analysis with multimodal LLMs: Current evidence on an emerging methodological opportunity

📄 arXiv: 2512.10882 📥 PDF

作者: Hauke Licht

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

评估多模态LLM在政治视频情感分析中的可靠性,揭示实验室与实际场景的性能差距及性别偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 情感分析 政治传播 性别偏见 唤醒度测量

📋 核心要点

  1. 现有政治传播情感分析方法缺乏对真实场景视频的有效处理能力,多模态LLM有望通过上下文学习解决此问题。
  2. 该研究通过对比实验室数据和真实议会辩论数据,评估了现有mLLM在情感唤醒度测量方面的可靠性。
  3. 实验揭示了mLLM在真实场景下的性能瓶颈,并发现模型存在系统性的性别偏见,为后续研究提供了重要参考。

📝 摘要(中文)

本研究旨在评估多模态大型语言模型(mLLMs)在政治传播领域情感分析中的应用潜力。通过使用实验室条件下的语音演员录音和真实议会辩论视频这两个互补的人工标注数据集,对2026年初可用的开源和闭源mLLMs在基于视频的情感唤醒度测量方面进行了系统评估。研究发现存在显著的实验室与实际场景性能差距。在实验室视频中,mLLMs的唤醒度评分接近人类水平,但在议会辩论录音中,所有模型的唤醒度评分与人类平均评分的相关性最多为中等。此外,几乎所有模型都表现出系统性的性别差异偏见,对男性发言者的唤醒度估计普遍低于女性,导致净正向强度偏见。这些发现揭示了当前mLLMs在真实政治视频分析中的局限性,并为未来发展建立了一个严格的评估框架。

🔬 方法详解

问题定义:论文旨在评估当前多模态大型语言模型(mLLMs)在真实政治场景下,基于视频的情感分析能力,特别是情感唤醒度(arousal)的测量。现有方法在处理真实场景视频时,由于光照、遮挡、口音、背景噪音等因素的影响,效果不佳。此外,现有研究缺乏对mLLMs在情感分析中可能存在的偏见进行系统性评估。

核心思路:论文的核心思路是通过对比mLLMs在实验室控制环境和真实议会辩论环境下的表现,来评估其在真实场景下的泛化能力。同时,通过分析模型对不同性别发言者的情感唤醒度估计,来检测模型是否存在性别偏见。这种对比分析能够更全面地揭示mLLMs在实际应用中的局限性。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 数据收集与标注:收集实验室录制的语音演员视频和真实议会辩论视频,并由人工标注情感唤醒度。 2. 模型选择:选择在2026年初可用的开源和闭源mLLMs。 3. 情感唤醒度预测:使用mLLMs对视频进行情感唤醒度预测。 4. 性能评估:对比mLLMs在不同数据集上的表现,并计算与人工标注的相关性。 5. 偏见分析:分析mLLMs对不同性别发言者的情感唤醒度估计,检测是否存在性别偏见。

关键创新:该研究的关键创新在于: 1. 系统性地评估了当前mLLMs在真实政治场景下的情感分析能力,填补了该领域的空白。 2. 揭示了mLLMs在实验室环境和真实环境下的性能差距,指出了其在实际应用中的局限性。 3. 发现了mLLMs在情感分析中存在的性别偏见,为后续研究提供了重要的参考。

关键设计:研究的关键设计包括: 1. 使用两个互补的数据集(实验室数据和真实数据)进行评估,以更全面地了解mLLMs的性能。 2. 采用相关性分析来评估mLLMs的情感唤醒度预测与人工标注的一致性。 3. 通过比较mLLMs对不同性别发言者的情感唤醒度估计,来检测性别偏见。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,mLLMs在实验室数据上表现接近人类水平,但在真实议会辩论数据上,与人类平均评分的相关性最多为中等。此外,几乎所有模型都表现出系统性的性别差异偏见,对男性发言者的唤醒度估计普遍低于女性。这些结果表明,当前mLLMs在真实场景下的情感分析能力仍有待提高。

🎯 应用场景

该研究成果可应用于政治传播分析、舆情监控、人机交互等领域。通过了解mLLM在情感分析方面的局限性,可以更有效地利用这些模型,并避免潜在的偏见。未来的研究可以基于此框架,开发更鲁棒、更公平的情感分析模型,提升在复杂真实场景下的应用效果。

📄 摘要(原文)

Research increasingly leverages audio-visual materials to analyze emotions in political communication. Multimodal large language models (mLLMs) promise to enable such analyses through in-context learning. However, we lack systematic evidence on whether current mLLMs can reliably measure emotions in real-world political settings. This paper closes this gap by evaluating open- and closed-weights mLLMs available as of early 2026 in video-based emotional arousal measurement using two complementary human-labeled datasets: speech actor recordings created under laboratory conditions and real-world parliamentary debates. I find a critical lab-vs-field performance gap. In videos created under laboratory conditions, the examined mLLMs arousal scores approach human-level reliability. However, in parliamentary debate recordings, all examined models' arousal scores correlate at best moderately with average human ratings. Moreover, in each dataset, all but one of the examined mLLMs exhibit systematic gender-differential bias, consistently underestimating arousal more for male than for female speakers, resulting in a net-positive intensity bias. These findings reveal important limitations of current mLLMs for real-world political video analysis and establish a rigorous evaluation framework for tracking future developments.