Long-Short Distance Graph Neural Networks and Improved Curriculum Learning for Emotion Recognition in Conversation
作者: Xinran Li, Xiujuan Xu, Jiaqi Qiao
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-07-21 (更新: 2025-07-24)
备注: Accepted by the 28th European Conference on Artificial Intelligence (ECAI 2025)
期刊: ECAI 2025, Frontiers in Artificial Intelligence and Applications, Volume 413, pp. 4033-4040, IOS Press, 2025
DOI: 10.3233/FAIA251292
💡 一句话要点
提出长短距离图神经网络和改进课程学习方法,用于提升对话情绪识别性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话情绪识别 图神经网络 长短距离建模 课程学习 多模态融合
📋 核心要点
- 对话情绪识别面临数据不平衡和难以有效建模长程依赖关系的挑战。
- 提出LSDGNN,利用长短距离图神经网络分别捕获远处和附近话语的特征,并使用差分正则化器和双仿射模块促进特征交互。
- 引入ICL,通过加权情绪变化指标和难度衡量器,优化训练过程,使模型先学习简单样本,再学习困难样本,提升性能。
📝 摘要(中文)
本文提出了一种新颖的多模态方法,即长短距离图神经网络(LSDGNN),用于对话情绪识别(ERC)任务。该方法基于有向无环图(DAG),构建长距离图神经网络和短距离图神经网络,分别获取远处和附近话语的多模态特征。为了确保长距离和短距离特征在表示上尽可能不同,同时实现两个模块之间的相互影响,我们采用差分正则化器,并引入双仿射模块以促进特征交互。此外,我们提出了一种改进的课程学习(ICL)方法,以应对数据不平衡的挑战。通过计算不同情绪之间的相似性来强调相似情绪的变化,我们设计了一个“加权情绪变化”指标,并开发了一个难度衡量器,从而实现优先学习简单样本再学习困难样本的训练过程。在IEMOCAP和MELD数据集上的实验结果表明,我们的模型优于现有的基准模型。
🔬 方法详解
问题定义:对话情绪识别(ERC)旨在识别对话中每个话语的情绪。现有方法在建模长程依赖关系和处理数据不平衡问题上存在不足。具体来说,难以有效捕捉对话中距离较远的话语之间的情感关联,并且由于不同情绪类别样本数量差异较大,导致模型在少数类别上的表现不佳。
核心思路:本文的核心思路是利用长短距离图神经网络分别建模对话中不同距离的话语之间的情感关联,并通过改进的课程学习方法来缓解数据不平衡问题。长距离图神经网络用于捕捉远处话语之间的依赖关系,短距离图神经网络用于捕捉附近话语之间的依赖关系。差分正则化器用于区分长短距离特征,双仿射模块用于促进特征交互。改进的课程学习方法则通过加权情绪变化指标和难度衡量器,引导模型先学习容易的样本,再学习困难的样本。
技术框架:LSDGNN的整体架构包括以下几个主要模块:1) 特征提取模块:提取每个话语的多模态特征(例如,文本、音频、视频特征)。2) 长距离图神经网络:基于有向无环图(DAG)构建,用于捕捉远处话语之间的情感关联。3) 短距离图神经网络:基于DAG构建,用于捕捉附近话语之间的情感关联。4) 差分正则化器:用于区分长短距离特征。5) 双仿射模块:用于促进长短距离特征的交互。6) 改进的课程学习模块:用于优化训练过程,缓解数据不平衡问题。
关键创新:本文的关键创新在于以下几个方面:1) 提出长短距离图神经网络,能够有效建模对话中不同距离的话语之间的情感关联。2) 引入差分正则化器和双仿射模块,能够有效区分和融合长短距离特征。3) 提出改进的课程学习方法,能够有效缓解数据不平衡问题。与现有方法相比,LSDGNN能够更全面地捕捉对话中的情感信息,并更好地处理数据不平衡问题。
关键设计:在长短距离图神经网络中,使用了GCN或GAT等图神经网络层来更新节点表示。差分正则化器采用L2正则化,鼓励长短距离特征的差异性。双仿射模块用于计算长短距离特征之间的相似度,从而实现特征交互。改进的课程学习方法中,“加权情绪变化”指标的计算方式为:首先计算不同情绪之间的相似度,然后根据相似度对情绪变化进行加权。难度衡量器则根据样本的损失值和“加权情绪变化”指标来确定样本的难度。
🖼️ 关键图片
📊 实验亮点
在IEMOCAP和MELD数据集上的实验结果表明,LSDGNN模型优于现有的基准模型。具体来说,在IEMOCAP数据集上,LSDGNN模型的加权准确率(WA)和非加权准确率(UA)分别提升了2.1%和1.8%。在MELD数据集上,LSDGNN模型的WA和UA分别提升了1.5%和1.2%。这些结果表明,LSDGNN模型能够有效提升对话情绪识别的性能。
🎯 应用场景
该研究成果可应用于智能客服、心理咨询、在线教育等领域。通过准确识别对话中的情绪,可以提升人机交互的自然性和有效性,例如,智能客服可以根据用户的情绪调整回复策略,心理咨询系统可以根据患者的情绪变化提供个性化的建议,在线教育平台可以根据学生的情绪状态调整教学内容和节奏。未来,该技术有望在情感计算领域发挥更大的作用。
📄 摘要(原文)
Emotion Recognition in Conversation (ERC) is a practical and challenging task. This paper proposes a novel multimodal approach, the Long-Short Distance Graph Neural Network (LSDGNN). Based on the Directed Acyclic Graph (DAG), it constructs a long-distance graph neural network and a short-distance graph neural network to obtain multimodal features of distant and nearby utterances, respectively. To ensure that long- and short-distance features are as distinct as possible in representation while enabling mutual influence between the two modules, we employ a Differential Regularizer and incorporate a BiAffine Module to facilitate feature interaction. In addition, we propose an Improved Curriculum Learning (ICL) to address the challenge of data imbalance. By computing the similarity between different emotions to emphasize the shifts in similar emotions, we design a "weighted emotional shift" metric and develop a difficulty measurer, enabling a training process that prioritizes learning easy samples before harder ones. Experimental results on the IEMOCAP and MELD datasets demonstrate that our model outperforms existing benchmarks.