A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations
作者: Soumya Dutta, Smruthi Balaji, Sriram Ganapathy
分类: cs.CL, eess.AS
发布日期: 2026-02-26
备注: Accepted to Elsevier Computer Speech and Language. 30 pages, 9 figures, 5 tables
💡 一句话要点
提出MiSTER-E以解决多模态对话中的情感识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感识别 多模态融合 对话系统 机器学习 卷积神经网络 递归神经网络 专家模型 大语言模型
📋 核心要点
- 现有情感识别方法在处理多轮对话时,难以有效整合多模态信息,导致识别准确率低。
- 本文提出的MiSTER-E模型通过模块化的专家混合框架,分别建模模态特定上下文并融合多模态信息。
- 在IEMOCAP、MELD和MOSI三个基准数据集上,MiSTER-E分别达到了70.9%、69.5%和87.9%的加权F1分数,显著优于多种基线模型。
📝 摘要(中文)
情感识别在对话中面临独特挑战,需要模型捕捉多轮对话的时间流动,并有效整合来自多种模态的线索。本文提出了情感识别的语音-文本专家混合模型(MiSTER-E),旨在解耦情感识别中的两个核心挑战:模态特定的上下文建模和多模态信息融合。MiSTER-E利用经过微调的大型语言模型(LLMs)为语音和文本提供丰富的发言级嵌入,并通过卷积-递归上下文建模层增强这些嵌入。该系统通过学习的门控机制整合来自三个专家(仅语音、仅文本和跨模态)的预测。为了进一步鼓励模态间的一致性和对齐,本文引入了配对语音-文本表示之间的监督对比损失和基于KL散度的专家预测正则化。实验结果表明,MiSTER-E在多个基准数据集上表现优异,超越了多种基线模型。
🔬 方法详解
问题定义:情感识别在对话中需要处理多轮对话的时间流动和多模态信息的整合,现有方法在这方面存在不足,难以有效捕捉情感信息。
核心思路:MiSTER-E通过模块化的混合专家框架,分别处理语音和文本的上下文建模,并通过动态门控机制融合多模态信息,以提高情感识别的准确性。
技术框架:该框架包括三个主要模块:语音专家、文本专家和跨模态专家。每个专家通过大语言模型生成嵌入,随后通过卷积-递归层进行上下文建模,最后通过门控机制整合输出。
关键创新:MiSTER-E的创新在于不依赖说话者身份,且通过监督对比损失和KL散度正则化增强模态间的一致性,这与现有方法的依赖性设计形成鲜明对比。
关键设计:在损失函数设计上,采用了监督对比损失以促进模态对齐,同时引入KL散度正则化以保持专家预测的一致性,确保模型在不同模态间的有效融合。
🖼️ 关键图片
📊 实验亮点
在IEMOCAP、MELD和MOSI三个基准数据集上,MiSTER-E分别取得了70.9%、69.5%和87.9%的加权F1分数,显著超越了多种基线模型,展示了其在多模态情感识别中的优越性能。
🎯 应用场景
该研究在情感计算、社交机器人和人机交互等领域具有广泛的应用潜力。通过提高对话中的情感识别准确性,能够增强机器对人类情感的理解,从而改善用户体验和交互质量。未来,该模型可扩展至更多模态和场景,推动情感智能的发展。
📄 摘要(原文)
Emotion Recognition in Conversations (ERC) presents unique challenges, requiring models to capture the temporal flow of multi-turn dialogues and to effectively integrate cues from multiple modalities. We propose Mixture of Speech-Text Experts for Recognition of Emotions (MiSTER-E), a modular Mixture-of-Experts (MoE) framework designed to decouple two core challenges in ERC: modality-specific context modeling and multimodal information fusion. MiSTER-E leverages large language models (LLMs) fine-tuned for both speech and text to provide rich utterance-level embeddings, which are then enhanced through a convolutional-recurrent context modeling layer. The system integrates predictions from three experts-speech-only, text-only, and cross-modal-using a learned gating mechanism that dynamically weighs their outputs. To further encourage consistency and alignment across modalities, we introduce a supervised contrastive loss between paired speech-text representations and a KL-divergence-based regulariza-tion across expert predictions. Importantly, MiSTER-E does not rely on speaker identity at any stage. Experiments on three benchmark datasets-IEMOCAP, MELD, and MOSI-show that our proposal achieves 70.9%, 69.5%, and 87.9% weighted F1-scores respectively, outperforming several baseline speech-text ERC systems. We also provide various ablations to highlight the contributions made in the proposed approach.