Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance

📄 arXiv: 2510.10444v2 📥 PDF

作者: Jingyi Chen, Zhimeng Guo, Jiyun Chun, Pichao Wang, Andrew Perrault, Micha Elsner

分类: cs.CL, cs.AI

发布日期: 2025-10-12 (更新: 2025-10-17)


💡 一句话要点

提出LISTEN基准以评估音频语言模型的情感理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 情感理解 声学线索 词汇依赖 多模态评估

📋 核心要点

  1. 核心问题:现有的大型音频语言模型在情感理解中主要依赖词汇内容,声学信息的处理能力不足。
  2. 方法要点:提出LISTEN基准,通过控制实验区分词汇依赖与声学敏感性,评估模型的情感理解能力。
  3. 实验或效果:评估结果显示模型在声学线索缺失时表现不佳,表明其主要是转录而非真正理解情感。

📝 摘要(中文)

理解语音中的情感需要对词汇和声学线索的敏感性。然而,目前尚不清楚大型音频语言模型(LALMs)是否真正处理声学信息,还是主要依赖词汇内容。我们提出了LISTEN(情感叙述中的词汇与声学语音测试),这是一个旨在区分情感理解中的词汇依赖与声学敏感性的控制基准。在对六种最先进的LALMs进行评估时,我们观察到一致的词汇主导性。模型在词汇线索中性或缺失时预测为“中性”,在线索对齐下表现提升有限,并在线索冲突下未能分类出不同情感。在副语言环境中,性能接近随机。这些结果表明,当前的LALMs更多是“转录”而非“倾听”,在很大程度上依赖词汇语义,而未充分利用声学线索。LISTEN为评估多模态模型中的情感理解提供了一个原则性框架。

🔬 方法详解

问题定义:本论文旨在解决大型音频语言模型在情感理解中对声学信息处理不足的问题。现有方法往往过于依赖词汇内容,未能有效利用声学线索,导致情感分类性能低下。

核心思路:论文提出LISTEN基准,通过设计控制实验来区分词汇依赖与声学敏感性,从而更准确地评估模型的情感理解能力。这样的设计使得研究者能够明确模型在不同情感线索下的表现差异。

技术框架:LISTEN基准包含多个实验模块,首先通过设置不同的词汇和声学线索组合,评估模型在这些条件下的情感分类能力。其次,采用标准化的评估指标来量化模型的表现,确保结果的可比性。

关键创新:最重要的技术创新在于提出了一个系统化的评估框架,能够清晰地揭示模型在情感理解中的词汇与声学信息处理能力的差异。这与现有方法的主要区别在于,LISTEN基准能够提供更细致的分析,而不仅仅是整体性能的评估。

关键设计:在实验设计中,设置了多种情感线索的组合,包括词汇中性、声学中性以及二者的冲突情况。损失函数采用了交叉熵损失,以确保模型在情感分类任务中的准确性。同时,使用了多种最先进的LALMs作为基线进行对比,确保评估的全面性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,六种最先进的LALMs在词汇线索缺失时表现为“中性”,在声学线索对齐时提升有限,且在情感线索冲突情况下未能有效分类情感,整体性能接近随机水平。这表明当前模型在情感理解上主要依赖词汇内容,声学信息利用不足。

🎯 应用场景

该研究的潜在应用领域包括情感分析、语音助手、客服机器人等,能够帮助提升机器对人类情感的理解能力,从而改善人机交互体验。未来,LISTEN基准有望成为评估多模态模型情感理解能力的标准工具,推动相关技术的发展。

📄 摘要(原文)

Understanding emotion from speech requires sensitivity to both lexical and acoustic cues. However, it remains unclear whether large audio language models (LALMs) genuinely process acoustic information or rely primarily on lexical content. We present LISTEN (Lexical vs. Acoustic Speech Test for Emotion in Narratives), a controlled benchmark designed to disentangle lexical reliance from acoustic sensitivity in emotion understanding. Across evaluations of six state-of-the-art LALMs, we observe a consistent lexical dominance. Models predict "neutral" when lexical cues are neutral or absent, show limited gains under cue alignment, and fail to classify distinct emotions under cue conflict. In paralinguistic settings, performance approaches chance. These results indicate that current LALMs largely "transcribe" rather than "listen," relying heavily on lexical semantics while underutilizing acoustic cues. LISTEN offers a principled framework for assessing emotion understanding in multimodal models.