SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition

📄 arXiv: 2411.19822v1 📥 PDF

作者: Fangze Fu, Wei Ai, Fan Yang, Yuntao Shou, Tao Meng, Keqin Li

分类: cs.CL

发布日期: 2024-11-29

备注: 17 pages, 8 figures


💡 一句话要点

提出SDR-GNN,用于会话情感识别中不完整多模态学习的光谱域重建图神经网络

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 图神经网络 不完整数据 频谱分析 会话情感识别 模态重建 深度学习

📋 核心要点

  1. 现有MERC方法忽略了现实场景中常见的模态不完整问题,且传统GNN难以捕捉高阶信息和高频细节。
  2. SDR-GNN通过滑动窗口构建语义交互图,利用加权关系聚合和频谱域多频聚合来恢复不完整模态。
  3. 实验结果表明,SDR-GNN在不完整多模态学习中表现出色,优于现有方法,证明了其有效性。

📝 摘要(中文)

会话中的多模态情感识别(MERC)旨在利用文本、听觉和视觉模态特征对语句情感进行分类。现有的大多数MERC方法都假设每个语句都具有完整的模态,忽略了现实场景中常见的模态不完整问题。最近,图神经网络(GNN)在会话中不完整多模态情感识别(IMERC)方面取得了显著成果。然而,传统的GNN侧重于节点之间的二元关系,限制了它们捕获更复杂、更高阶信息的能力。此外,重复的消息传递会导致过度平滑,降低了它们保留重要高频细节的能力。为了解决这些问题,我们提出了一种用于会话情感识别中不完整多模态学习的光谱域重建图神经网络(SDR-GNN)。SDR-GNN使用基于说话者和上下文关系的滑动窗口构建语句语义交互图,以建模情感依赖关系。为了捕获更高阶和高频信息,SDR-GNN利用加权关系聚合,确保跨语句的一致语义特征提取。此外,它在频谱域中执行多频聚合,通过提取高频和低频信息来有效恢复不完整的模态。最后,应用多头注意力来融合和优化特征以进行情感识别。在各种真实世界数据集上的大量实验表明,我们的方法在不完整多模态学习中是有效的,并且优于当前最先进的方法。

🔬 方法详解

问题定义:论文旨在解决会话情感识别中普遍存在的多模态数据不完整问题。现有方法通常假设模态完整,或者使用简单的补全策略,无法有效利用不完整数据中的信息。此外,传统GNN在处理情感依赖关系时,侧重于二元关系,忽略了更高阶的交互信息,并且容易出现过平滑问题,丢失高频细节。

核心思路:论文的核心思路是在频谱域进行模态重建,并利用图神经网络建模情感依赖关系。通过在频谱域进行多频聚合,可以有效地提取高频和低频信息,从而更好地恢复不完整的模态。同时,利用加权关系聚合,可以捕获更高阶的交互信息,并缓解过平滑问题。

技术框架:SDR-GNN的整体框架包括以下几个主要模块:1) 语句语义交互图构建:使用滑动窗口,基于说话者和上下文关系构建语句之间的语义交互图。2) 加权关系聚合:利用加权关系聚合,捕获更高阶的交互信息,并确保跨语句的一致语义特征提取。3) 频谱域多频聚合:在频谱域中进行多频聚合,提取高频和低频信息,用于模态重建。4) 多头注意力融合:利用多头注意力机制,融合不同模态的特征,并进行情感识别。

关键创新:SDR-GNN的关键创新在于:1) 在频谱域进行模态重建,能够更有效地利用不完整数据中的信息。2) 利用加权关系聚合,捕获更高阶的交互信息,并缓解过平滑问题。3) 结合了图神经网络和频谱分析的优势,能够更好地建模情感依赖关系和恢复不完整模态。

关键设计:在图构建方面,滑动窗口的大小是一个关键参数,需要根据数据集的特点进行调整。在频谱域多频聚合方面,需要选择合适的频率分量进行聚合。损失函数的设计也至关重要,需要平衡模态重建的准确性和情感识别的性能。具体网络结构和参数设置在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个真实世界数据集上进行了实验,结果表明SDR-GNN在不完整多模态情感识别任务上优于当前最先进的方法。具体的性能提升数据在论文中有详细展示,例如在某个数据集上,SDR-GNN的准确率比基线方法提高了X%。实验结果充分验证了SDR-GNN在处理不完整多模态数据方面的有效性。

🎯 应用场景

该研究成果可应用于智能客服、心理健康咨询、在线教育等领域。通过识别对话中的情感变化,可以提供更个性化、更人性化的服务。例如,在智能客服中,可以根据用户的情绪状态调整对话策略,提高用户满意度。在心理健康咨询中,可以帮助咨询师更好地理解患者的情绪,提供更有效的支持。

📄 摘要(原文)

Multimodal Emotion Recognition in Conversations (MERC) aims to classify utterance emotions using textual, auditory, and visual modal features. Most existing MERC methods assume each utterance has complete modalities, overlooking the common issue of incomplete modalities in real-world scenarios. Recently, graph neural networks (GNNs) have achieved notable results in Incomplete Multimodal Emotion Recognition in Conversations (IMERC). However, traditional GNNs focus on binary relationships between nodes, limiting their ability to capture more complex, higher-order information. Moreover, repeated message passing can cause over-smoothing, reducing their capacity to preserve essential high-frequency details. To address these issues, we propose a Spectral Domain Reconstruction Graph Neural Network (SDR-GNN) for incomplete multimodal learning in conversational emotion recognition. SDR-GNN constructs an utterance semantic interaction graph using a sliding window based on both speaker and context relationships to model emotional dependencies. To capture higher-order and high-frequency information, SDR-GNN utilizes weighted relationship aggregation, ensuring consistent semantic feature extraction across utterances. Additionally, it performs multi-frequency aggregation in the spectral domain, enabling efficient recovery of incomplete modalities by extracting both high- and low-frequency information. Finally, multi-head attention is applied to fuse and optimize features for emotion recognition. Extensive experiments on various real-world datasets demonstrate that our approach is effective in incomplete multimodal learning and outperforms current state-of-the-art methods.