Unimodal-driven Distillation in Multimodal Emotion Recognition with Dynamic Fusion
作者: Jiagen Li, Rui Yu, Huihao Huang, Huaicheng Yan
分类: cs.LG, cs.AI
发布日期: 2025-03-31
💡 一句话要点
提出SUMMER框架,利用单模态知识蒸馏提升多模态情感识别性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 知识蒸馏 混合专家网络 跨模态融合 会话情感识别
📋 核心要点
- 现有方法在多模态情感识别中直接进行异构模态融合,易受模态异质性和缺乏指导的困扰。
- SUMMER框架利用单模态教师模型指导多模态融合,通过知识蒸馏提升模型性能,并采用混合专家网络动态融合。
- 实验结果表明,SUMMER在IEMOCAP和MELD数据集上超越了现有技术,尤其擅长识别少数类情感。
📝 摘要(中文)
本文提出了一种名为SUMMER的新型异构多模态融合框架,用于会话中的多模态情感识别(MERC)。该框架利用了混合专家网络(MoE)进行分层的跨模态融合和交互式知识蒸馏。SUMMER包含稀疏动态混合专家网络(SDMoE),用于捕获动态的token级别交互;分层跨模态融合(HCMF),用于有效融合异构模态;以及交互式知识蒸馏(IKD),它使用预训练的单模态教师模型来指导潜在空间和logit空间中的多模态融合。在IEMOCAP和MELD数据集上的实验表明,SUMMER优于现有最先进的方法,尤其是在识别少数类和语义相似的情感方面。
🔬 方法详解
问题定义:多模态情感识别旨在从文本、音频和视频等多模态数据中识别情感状态。现有方法直接融合异构模态,但由于模态间的差异性和缺乏有效指导,导致多模态学习效果不佳,尤其是在处理少数类和语义相似的情感时表现较差。
核心思路:本文的核心思路是利用预训练的单模态模型作为教师,通过知识蒸馏的方式指导多模态模型的学习。单模态模型能够提供更清晰的情感表达,从而帮助多模态模型更好地理解和融合不同模态的信息。同时,采用动态融合机制,根据输入动态调整不同模态的权重。
技术框架:SUMMER框架包含三个主要模块:1) 稀疏动态混合专家网络(SDMoE):用于捕获token级别的动态交互,根据输入动态选择不同的专家进行融合。2) 分层跨模态融合(HCMF):采用分层结构,逐步融合不同模态的信息,从而更有效地处理异构模态。3) 交互式知识蒸馏(IKD):利用预训练的单模态教师模型,在潜在空间和logit空间对多模态模型进行知识蒸馏,从而提升模型的性能。
关键创新:该论文的关键创新在于将单模态知识蒸馏引入到多模态情感识别中,利用单模态模型提供的情感信息作为指导,提升多模态模型的学习效果。此外,SDMoE和HCMF的设计也能够更有效地处理模态异质性和动态交互。与现有方法相比,SUMMER框架能够更好地利用单模态信息,并实现更有效的多模态融合。
关键设计:SDMoE采用稀疏门控机制,动态选择不同的专家进行融合,从而降低计算复杂度。HCMF采用多层Transformer结构,逐步融合不同模态的信息。IKD在潜在空间和logit空间同时进行知识蒸馏,从而更全面地利用单模态教师模型的信息。损失函数包括交叉熵损失、潜在空间蒸馏损失和logit空间蒸馏损失。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SUMMER框架在IEMOCAP和MELD数据集上均取得了显著的性能提升,超越了现有最先进的方法。尤其是在识别少数类和语义相似的情感方面,SUMMER表现出更强的优势。具体性能数据未知,但摘要强调了其在特定情感识别上的优越性。
🎯 应用场景
该研究成果可应用于智能对话系统、情感分析、人机交互等领域。通过准确识别用户的情感状态,系统可以提供更个性化、更贴心的服务。例如,在智能客服中,系统可以根据用户的情绪调整对话策略,从而提高用户满意度。此外,该技术还可以用于舆情监控,及时发现和处理负面情绪。
📄 摘要(原文)
Multimodal Emotion Recognition in Conversations (MERC) identifies emotional states across text, audio and video, which is essential for intelligent dialogue systems and opinion analysis. Existing methods emphasize heterogeneous modal fusion directly for cross-modal integration, but often suffer from disorientation in multimodal learning due to modal heterogeneity and lack of instructive guidance. In this work, we propose SUMMER, a novel heterogeneous multimodal integration framework leveraging Mixture of Experts with Hierarchical Cross-modal Fusion and Interactive Knowledge Distillation. Key components include a Sparse Dynamic Mixture of Experts (SDMoE) for capturing dynamic token-wise interactions, a Hierarchical Cross-Modal Fusion (HCMF) for effective fusion of heterogeneous modalities, and Interactive Knowledge Distillation (IKD), which uses a pre-trained unimodal teacher to guide multimodal fusion in latent and logit spaces. Experiments on IEMOCAP and MELD show SUMMER outperforms state-of-the-art methods, particularly in recognizing minority and semantically similar emotions.