Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
作者: Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang
分类: cs.SD, cs.AI, eess.AS
发布日期: 2026-03-09
备注: The paper was submitted to Interspeech for review
💡 一句话要点
提出一种基于大语音语言模型(LALM)的解耦推理框架,用于解决语音情感识别中的歧义性情感预测问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音情感识别 歧义情感 大语音语言模型 解耦推理 思维链
📋 核心要点
- 现有语音情感识别方法通常预测单一情感标签,无法捕捉人类情感表达的内在歧义性。
- 论文提出一种解耦推理框架,包含歧义感知目标函数和结构化思维链监督,以提升LALM对歧义情感的理解能力。
- 在IEMOCAP和CREMA-D数据集上的实验结果表明,该方法在多种训练策略下均取得了显著的性能提升。
📝 摘要(中文)
语音情感识别在各种应用中扮演着重要角色。然而,现有方法大多预测单一情感标签,过度简化了人类情感表达的内在歧义性。最近的大型语音语言模型(LALM)在生成更丰富的输出方面展现出潜力,但它们在理解歧义情感方面的推理能力仍然有限。本文将歧义情感识别重新定义为一个分布式的推理问题,并首次系统地研究了LALM中对歧义性感知的推理。我们提出的框架包含两个互补的组件:一个对歧义性感知的目标函数,用于将预测与人类感知分布对齐;以及一个结构化的、对歧义性感知的思维链监督,用于指导对情感线索的推理。在IEMOCAP和CREMA-D数据集上的实验表明,该方法在SFT、DPO和GRPO训练策略下均表现出一致的改进。
🔬 方法详解
问题定义:现有语音情感识别方法主要存在的问题是无法有效处理情感表达的歧义性。它们通常预测单一的情感标签,忽略了人类情感表达的复杂性和多面性。这导致模型无法准确捕捉到情感的细微差别,从而影响了识别的准确性和可靠性。
核心思路:论文的核心思路是将歧义情感识别问题重新定义为一个分布式的推理问题。这意味着不再是预测单一的情感标签,而是预测一个情感分布,反映不同情感的可能性。通过这种方式,模型可以更好地捕捉情感的模糊性和不确定性。同时,论文还引入了思维链(Chain-of-Thought)的概念,引导模型逐步推理情感线索,从而更好地理解情感的内在含义。
技术框架:该框架包含两个主要组成部分:1) 歧义感知目标函数:该目标函数旨在将模型的预测与人类感知的情感分布对齐。通过最小化模型预测的情感分布与人类感知的情感分布之间的差异,可以使模型更好地学习人类对情感的理解方式。2) 结构化歧义感知思维链监督:该模块通过提供结构化的思维链,引导模型逐步推理情感线索。思维链包含一系列中间步骤,每个步骤都对应于对情感线索的分析和推理。通过监督模型生成正确的思维链,可以提高模型对情感的理解能力。
关键创新:该论文的关键创新在于首次系统地研究了LALM中对歧义性感知的推理,并提出了一个包含歧义感知目标函数和结构化思维链监督的框架。该框架能够有效地提高LALM对歧义情感的理解能力,从而提高语音情感识别的准确性和可靠性。与现有方法相比,该方法能够更好地捕捉情感的复杂性和多面性。
关键设计:在目标函数方面,论文可能采用了KL散度或交叉熵等方法来衡量模型预测的情感分布与人类感知的情感分布之间的差异。在思维链监督方面,论文可能采用了人工标注或自动生成的方法来构建思维链。具体的网络结构和参数设置未知,但可以推测使用了Transformer等常见的神经网络结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在IEMOCAP和CREMA-D数据集上均取得了显著的性能提升。具体而言,在SFT、DPO和GRPO等不同的训练策略下,该方法均表现出一致的改进。这些结果表明,该方法能够有效地提高LALM对歧义情感的理解能力,从而提高语音情感识别的准确性和可靠性。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于情感智能客服、心理健康监测、人机交互等领域。通过更准确地识别和理解人类情感,可以提升人机交互的自然性和有效性,改善用户体验。例如,在情感智能客服中,可以根据用户的情感状态提供个性化的服务;在心理健康监测中,可以及时发现潜在的心理问题。
📄 摘要(原文)
Speech emotion recognition plays an important role in various applications. However, most existing approaches predict a single emotion label, oversimplifying the inherently ambiguous nature of human emotional expression. Recent large audio-language models show promise in generating richer outputs, but their reasoning ability for ambiguous emotional understanding remains limited. In this work, we reformulate ambiguous emotion recognition as a distributional reasoning problem and present the first systematic study of ambiguity-aware reasoning in LALMs. Our framework comprises two complementary components: an ambiguity-aware objective that aligns predictions with human perceptual distributions, and a structured ambiguity-aware chain-of-thought supervision that guides reasoning over emotional cues. Experiments on IEMOCAP and CREMA-D demonstrate consistent improvements across SFT, DPO, and GRPO training strategies.