A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations
作者: Soumya Dutta, Smruthi Balaji, Sriram Ganapathy
分类: cs.CL, eess.AS
发布日期: 2026-02-28
💡 一句话要点
提出MiSTER-E模型,通过混合专家机制解决对话情感识别中的多模态融合问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话情感识别 多模态融合 混合专家模型 上下文建模 对比学习
📋 核心要点
- 对话情感识别需有效整合多轮对话的时序信息和多模态线索,现有方法难以兼顾。
- MiSTER-E模型利用混合专家机制,分别处理模态特定上下文建模和多模态信息融合。
- 实验表明,MiSTER-E在IEMOCAP、MELD和MOSI数据集上均超越现有基线系统。
📝 摘要(中文)
本文提出了一种用于对话情感识别(ERC)的混合专家模型,名为MiSTER-E。该模型旨在解耦ERC中的两个核心挑战:模态特定的上下文建模和多模态信息融合。MiSTER-E利用针对语音和文本微调的大型语言模型(LLM)来提供丰富的utterance-level嵌入,并通过卷积-循环上下文建模层进行增强。该系统集成了来自三个专家的预测——仅语音、仅文本和跨模态——使用一个学习到的门控机制动态地权衡它们的输出。为了进一步鼓励跨模态的一致性和对齐,我们引入了配对语音-文本表示之间的监督对比损失以及基于KL散度的专家预测之间的正则化。重要的是,MiSTER-E在任何阶段都不依赖于说话人身份。在三个基准数据集IEMOCAP、MELD和MOSI上的实验表明,我们的方案分别实现了70.9%、69.5%和87.9%的加权F1分数,优于几种基线语音-文本ERC系统。我们还提供了各种消融实验,以突出所提出的方法所做的贡献。
🔬 方法详解
问题定义:对话情感识别(ERC)旨在识别对话中每个utterance的情感。现有的ERC方法通常难以有效处理多模态信息,尤其是语音和文本之间的复杂关系。此外,如何建模对话历史的上下文信息,并将其与当前utterance的情感表达相结合,也是一个挑战。许多方法依赖于说话人信息,限制了其泛化能力。
核心思路:MiSTER-E的核心思路是将多模态情感识别问题分解为模态特定的上下文建模和多模态信息融合两个子问题,并分别使用不同的专家模型来处理。通过混合专家(MoE)机制,动态地选择和组合不同专家的输出,从而实现更准确的情感识别。这种解耦的设计允许模型更好地捕捉不同模态的特征,并灵活地适应不同的对话场景。
技术框架:MiSTER-E的整体框架包括以下几个主要模块:1) 语音和文本嵌入模块:使用预训练的LLM(针对语音和文本分别进行微调)提取utterance级别的嵌入表示。2) 上下文建模模块:使用卷积-循环神经网络(CRNN)对utterance嵌入进行上下文建模,捕捉对话历史信息。3) 专家模块:包括三个专家——仅语音专家、仅文本专家和跨模态专家,分别处理不同模态的信息。4) 门控网络:学习一个门控机制,动态地权衡不同专家的输出,生成最终的情感预测。
关键创新:MiSTER-E的关键创新在于其混合专家架构,它允许模型分别处理模态特定的上下文建模和多模态信息融合。此外,该模型引入了监督对比损失和KL散度正则化,以鼓励跨模态的一致性和对齐。最重要的是,MiSTER-E不依赖于说话人身份,使其更具通用性。
关键设计:模型使用预训练的LLM(如BERT或类似模型)进行初始化,并针对语音和文本数据进行微调。上下文建模模块使用卷积层提取局部特征,然后使用循环层捕捉时序依赖关系。监督对比损失用于拉近配对的语音-文本表示,而KL散度正则化用于约束专家预测的分布。门控网络通常是一个简单的全连接网络,其输出经过softmax归一化,作为不同专家的权重。
🖼️ 关键图片
📊 实验亮点
MiSTER-E在IEMOCAP、MELD和MOSI三个基准数据集上分别取得了70.9%、69.5%和87.9%的加权F1分数,显著优于现有的语音-文本ERC系统。消融实验表明,混合专家架构、监督对比损失和KL散度正则化均对性能提升有贡献。该模型在不依赖说话人信息的情况下,依然取得了优异的性能。
🎯 应用场景
该研究成果可应用于智能客服、情感聊天机器人、心理健康咨询等领域。通过准确识别对话中的情感,可以提升人机交互的自然性和有效性,改善用户体验,并为心理健康评估提供辅助工具。未来,该技术有望扩展到更广泛的多模态情感分析任务中。
📄 摘要(原文)
Emotion Recognition in Conversations (ERC) presents unique challenges, requiring models to capture the temporal flow of multi-turn dialogues and to effectively integrate cues from multiple modalities. We propose Mixture of Speech-Text Experts for Recognition of Emotions (MiSTER-E), a modular Mixture-of-Experts (MoE) framework designed to decouple two core challenges in ERC: modality-specific context modeling and multimodal information fusion. MiSTER-E leverages large language models (LLMs) fine-tuned for both speech and text to provide rich utterance-level embeddings, which are then enhanced through a convolutional-recurrent context modeling layer. The system integrates predictions from three experts-speech-only, text-only, and cross-modal-using a learned gating mechanism that dynamically weighs their outputs. To further encourage consistency and alignment across modalities, we introduce a supervised contrastive loss between paired speech-text representations and a KL-divergence-based regulariza-tion across expert predictions. Importantly, MiSTER-E does not rely on speaker identity at any stage. Experiments on three benchmark datasets-IEMOCAP, MELD, and MOSI-show that our proposal achieves 70.9%, 69.5%, and 87.9% weighted F1-scores respectively, outperforming several baseline speech-text ERC systems. We also provide various ablations to highlight the contributions made in the proposed approach.