GSDNet: Revisiting Incomplete Multimodal-Diffusion from Graph Spectrum Perspective for Conversation Emotion Recognition

📄 arXiv: 2506.12325v1 📥 PDF

作者: Yuntao Shou, Jun Yao, Tao Meng, Wei Ai, Cen Chen, Keqin Li

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-06-14


💡 一句话要点

GSDNet:基于图谱视角的对话情感识别不完整多模态扩散模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话情感识别 多模态融合 模态补全 图神经网络 扩散模型 图谱理论 谱域扩散

📋 核心要点

  1. 现有MERC方法在模态缺失情况下性能显著下降,图扩散模型直接作用于邻接矩阵易破坏图结构。
  2. GSDNet将高斯噪声映射到图谱空间,仅影响邻接矩阵的特征值,保持图的全局拓扑信息。
  3. 实验表明,GSDNet在多种模态缺失场景下,情感识别性能达到SOTA水平。

📝 摘要(中文)

对话情感识别(MERC)旨在通过分析来自视频、音频和文本等多种来源的语篇信息来推断说话者的情感状态。与单模态相比,融合来自不同模态的互补语义信息可以获得更鲁棒的语篇表示。然而,模态缺失问题严重限制了MERC在实际场景中的性能。最近的研究分别利用图神经网络和扩散模型在模态补全方面取得了令人印象深刻的性能。这启发我们将这两个维度结合起来,通过图扩散模型获得更强大的模态恢复能力。不幸的是,现有的图扩散模型可能通过直接向邻接矩阵添加高斯噪声来破坏图的连通性和局部结构,导致生成的图数据无法保留原始图的语义和拓扑信息。为此,我们提出了一种新的图谱扩散网络(GSDNet),它将高斯噪声映射到缺失模态的图谱空间,并根据其原始分布恢复缺失的数据。与之前的图扩散方法相比,GSDNet只影响邻接矩阵的特征值,而不是直接破坏邻接矩阵,这可以在扩散过程中保持全局拓扑信息和重要的谱特征。大量的实验表明,GSDNet在各种模态丢失场景中实现了最先进的情感识别性能。

🔬 方法详解

问题定义:论文旨在解决对话情感识别(MERC)中,由于模态数据缺失导致性能下降的问题。现有基于图扩散的方法,通过直接向邻接矩阵添加噪声进行模态补全,容易破坏图的连通性和局部结构,导致补全后的模态数据无法保留原始图的语义和拓扑信息。

核心思路:论文的核心思路是将高斯噪声映射到缺失模态的图谱空间,通过在谱域进行扩散和恢复,避免直接修改邻接矩阵,从而在模态补全过程中更好地保持图的全局拓扑信息和重要的谱特征。这样可以更有效地恢复缺失的模态信息,提升情感识别的准确性。

技术框架:GSDNet的整体框架包含以下几个主要步骤:1) 构建多模态图,节点代表语篇,边代表语篇之间的关系;2) 对缺失模态进行图谱分解,得到特征值和特征向量;3) 将高斯噪声映射到图谱空间,进行扩散过程;4) 通过逆扩散过程,从噪声中恢复缺失的模态数据;5) 将补全后的多模态数据输入到情感识别模型中进行情感分类。

关键创新:GSDNet的关键创新在于将扩散过程应用于图的谱域,而不是直接作用于图的邻接矩阵。这种方法可以避免破坏图的拓扑结构,更好地保留图的全局信息和谱特征。与传统的图扩散方法相比,GSDNet只影响邻接矩阵的特征值,从而在扩散过程中保持图的连通性和局部结构。

关键设计:GSDNet的关键设计包括:1) 使用图谱分解来提取图的谱特征;2) 设计合适的扩散和逆扩散过程,将高斯噪声映射到谱域并恢复缺失的模态数据;3) 使用损失函数来约束扩散和恢复过程,保证补全后的模态数据与原始数据尽可能相似。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSDNet在各种模态丢失场景中实现了最先进的情感识别性能。具体而言,GSDNet在多个公开数据集上,相比于现有的图神经网络和扩散模型方法,情感识别准确率平均提升了X%(具体数值未知)。这些结果验证了GSDNet在模态补全和情感识别方面的有效性。

🎯 应用场景

GSDNet可应用于各种多模态情感识别场景,例如在线客服、智能助理、心理健康监测等。在这些场景中,由于设备限制、网络问题或用户隐私等原因,经常会出现模态数据缺失的情况。GSDNet能够有效地补全缺失的模态信息,提高情感识别的准确性和鲁棒性,从而提升用户体验和应用效果。该研究对多模态信息融合和情感计算领域具有重要的实际价值和潜在影响。

📄 摘要(原文)

Multimodal emotion recognition in conversations (MERC) aims to infer the speaker's emotional state by analyzing utterance information from multiple sources (i.e., video, audio, and text). Compared with unimodality, a more robust utterance representation can be obtained by fusing complementary semantic information from different modalities. However, the modality missing problem severely limits the performance of MERC in practical scenarios. Recent work has achieved impressive performance on modality completion using graph neural networks and diffusion models, respectively. This inspires us to combine these two dimensions through the graph diffusion model to obtain more powerful modal recovery capabilities. Unfortunately, existing graph diffusion models may destroy the connectivity and local structure of the graph by directly adding Gaussian noise to the adjacency matrix, resulting in the generated graph data being unable to retain the semantic and topological information of the original graph. To this end, we propose a novel Graph Spectral Diffusion Network (GSDNet), which maps Gaussian noise to the graph spectral space of missing modalities and recovers the missing data according to its original distribution. Compared with previous graph diffusion methods, GSDNet only affects the eigenvalues of the adjacency matrix instead of destroying the adjacency matrix directly, which can maintain the global topological information and important spectral features during the diffusion process. Extensive experiments have demonstrated that GSDNet achieves state-of-the-art emotion recognition performance in various modality loss scenarios.