GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations

📄 arXiv: 2503.20919v1 📥 PDF

作者: Yupei Li, Qiyang Sun, Sunil Munthumoduku Krishna Murthy, Emran Alturki, Björn W. Schuller

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-03-26


💡 一句话要点

提出GatedxLSTM模型,用于会话情感识别中的多模态情感计算,提升性能与可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 会话情感识别 多模态融合 情感计算 门控LSTM 跨模态对齐 CLAP预训练 对话情感解码器

📋 核心要点

  1. 现有会话情感识别方法难以有效对齐多模态特征,并缺乏对对话中情感演变原因的解释。
  2. GatedxLSTM通过CLAP预训练提升跨模态对齐,利用门控机制突出情感影响大的语句,并使用DED建模上下文依赖。
  3. 在IEMOCAP数据集上,GatedxLSTM在四类情感分类中取得了优于现有开源方法的SOTA性能。

📝 摘要(中文)

情感计算(AC)对于推进通用人工智能(AGI)至关重要,而情感识别是其中的关键组成部分。人类情感是动态的,受个体表达和人际互动的影响,单模态方法难以捕捉其完整动态。多模态情感识别(MER)利用多种信号,但传统上依赖于语句级别的分析,忽略了会话中情感的动态性。会话情感识别(ERC)解决了这一局限,但现有方法难以对齐多模态特征并解释对话中情感演变的原因。为了弥合这一差距,我们提出了GatedxLSTM,一种新型的语音-文本多模态ERC模型,显式地考虑说话者及其对话伙伴的声音和文本记录,以识别驱动情感转变的最具影响力的句子。通过集成对比语言-音频预训练(CLAP)以改进跨模态对齐,并采用门控机制来强调情感影响大的语句,GatedxLSTM增强了可解释性和性能。此外,对话情感解码器(DED)通过建模上下文依赖关系来改进情感预测。在IEMOCAP数据集上的实验表明,GatedxLSTM在四类情感分类中实现了最先进(SOTA)的开源方法性能。这些结果验证了其在ERC应用中的有效性,并从心理学角度提供了可解释性分析。

🔬 方法详解

问题定义:论文旨在解决会话情感识别(ERC)中,现有方法难以有效对齐多模态特征(语音和文本),并且缺乏对对话中情感演变原因的解释的问题。现有方法通常侧重于语句级别的分析,忽略了对话上下文和说话者之间的互动对情感的影响。

核心思路:论文的核心思路是显式地考虑说话者及其对话伙伴的声音和文本记录,通过识别对话中驱动情感转变的最具影响力的句子来提升情感识别的准确性和可解释性。通过跨模态对齐和门控机制,模型能够关注情感相关的关键信息,并利用上下文信息进行情感预测。

技术框架:GatedxLSTM模型主要包含以下几个模块:1) 特征提取模块:使用预训练的CLAP模型提取语音和文本特征,实现跨模态对齐。2) 门控LSTM模块:利用门控机制选择性地关注情感影响大的语句。3) 对话情感解码器(DED):建模上下文依赖关系,细化情感预测。整体流程是:输入语音和文本数据,经过特征提取,通过门控LSTM学习上下文表示,最后由DED进行情感分类。

关键创新:论文的关键创新点在于:1) 引入CLAP预训练模型,提升语音和文本特征的跨模态对齐效果。2) 设计门控LSTM模块,通过门控机制选择性地关注情感影响大的语句,增强模型的可解释性。3) 提出对话情感解码器(DED),建模上下文依赖关系,提升情感预测的准确性。与现有方法相比,GatedxLSTM更注重对话上下文和说话者之间的互动,能够更好地捕捉情感的动态变化。

关键设计:CLAP模型使用预训练的权重进行初始化,并进行微调以适应ERC任务。门控LSTM的门控机制采用sigmoid函数,控制信息的流动。DED采用多层感知机(MLP)建模上下文依赖关系。损失函数采用交叉熵损失函数,优化情感分类的准确性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

GatedxLSTM在IEMOCAP数据集上取得了SOTA性能,在四类情感分类任务中超越了现有的开源方法。实验结果表明,引入CLAP预训练和门控机制能够显著提升情感识别的准确性和可解释性。具体性能数据在论文中有详细展示,验证了GatedxLSTM在ERC任务中的有效性。

🎯 应用场景

该研究成果可应用于智能客服、心理咨询、人机交互等领域。通过准确识别对话中的情感变化,可以提升用户体验,实现更自然、更人性化的交互。未来,该技术有望应用于情感分析、舆情监控、社交媒体分析等更广泛的领域,为理解人类情感提供更强大的工具。

📄 摘要(原文)

Affective Computing (AC) is essential for advancing Artificial General Intelligence (AGI), with emotion recognition serving as a key component. However, human emotions are inherently dynamic, influenced not only by an individual's expressions but also by interactions with others, and single-modality approaches often fail to capture their full dynamics. Multimodal Emotion Recognition (MER) leverages multiple signals but traditionally relies on utterance-level analysis, overlooking the dynamic nature of emotions in conversations. Emotion Recognition in Conversation (ERC) addresses this limitation, yet existing methods struggle to align multimodal features and explain why emotions evolve within dialogues. To bridge this gap, we propose GatedxLSTM, a novel speech-text multimodal ERC model that explicitly considers voice and transcripts of both the speaker and their conversational partner(s) to identify the most influential sentences driving emotional shifts. By integrating Contrastive Language-Audio Pretraining (CLAP) for improved cross-modal alignment and employing a gating mechanism to emphasise emotionally impactful utterances, GatedxLSTM enhances both interpretability and performance. Additionally, the Dialogical Emotion Decoder (DED) refines emotion predictions by modelling contextual dependencies. Experiments on the IEMOCAP dataset demonstrate that GatedxLSTM achieves state-of-the-art (SOTA) performance among open-source methods in four-class emotion classification. These results validate its effectiveness for ERC applications and provide an interpretability analysis from a psychological perspective.