Hierarchical Hypercomplex Network for Multimodal Emotion Recognition

📄 arXiv: 2409.09194v2 📥 PDF

作者: Eleonora Lopez, Aurelio Uncini, Danilo Comminiello

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-09-13 (更新: 2024-10-10)

备注: The paper has been accepted at MLSP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种层级超复数网络,用于多模态情感识别,提升了脑电和生理信号的情感分类性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 超复数网络 脑电信号 生理信号 模内关系 模间关系 深度学习 情感计算

📋 核心要点

  1. 多模态情感识别面临挑战,现有方法难以充分捕捉模内和模间复杂关系。
  2. 提出层级超复数网络,利用超复数代数建模模内通道交互和模间相关性。
  3. 在MAHNOB-HCI数据集上,该模型在脑电和生理信号情感分类任务中超越了现有技术水平。

📝 摘要(中文)

情感识别在医疗保健和人机交互等领域具有重要意义。生理信号不受主观控制,为此目的提供了可靠的信息,这与可以随意控制的语音和面部表情不同。它们反映了真实的、没有意识操纵的情感反应,从而提高了情感识别系统的可信度。然而,使用深度学习模型进行多模态情感识别仍然是一个相对未被探索的领域。在本文中,我们提出了一种具有分层学习结构的完全超复数网络,以充分捕捉相关性。具体来说,在编码器级别,该模型学习每个输入信号的不同通道之间的模内关系。然后,一个超复数融合模块学习不同模态嵌入之间的模间关系。主要的创新在于通过赋予编码器参数化的超复数卷积(PHC)来利用模内关系,由于超复数代数,它可以捕获单个模态内的通道间交互。相反,融合模块包括参数化的超复数乘法(PHM),可以对模间相关性进行建模。所提出的架构在MAHNOB-HCI数据集上超越了最先进的情感识别模型,特别是在从脑电图(EEG)和外周生理信号中分类效价和唤醒度方面。该研究的代码可在https://github.com/ispamm/MHyEEG 获得。

🔬 方法详解

问题定义:论文旨在解决多模态情感识别中,如何有效融合来自不同生理信号(如脑电图EEG和外周生理信号)的信息,并充分挖掘模内(intra-modal)和模间(inter-modal)关系的问题。现有方法通常采用简单的拼接或注意力机制进行融合,难以捕捉复杂的模态间交互,并且忽略了模态内部通道之间的关联性。

核心思路:论文的核心思路是利用超复数代数(Hypercomplex Algebra)的特性,设计一种层级超复数网络,分别在编码器和融合模块中建模模内和模间关系。超复数代数能够有效地捕捉向量之间的旋转和缩放关系,从而更好地表示不同通道或模态之间的复杂交互。

技术框架:整体架构包含两个主要阶段:编码器阶段和融合阶段。在编码器阶段,针对每种模态,使用参数化的超复数卷积(PHC)提取模内特征。在融合阶段,使用参数化的超复数乘法(PHM)融合不同模态的嵌入表示,学习模间关系。最终,融合后的特征用于情感分类。

关键创新:最重要的技术创新点在于使用超复数卷积和乘法来建模模内和模间关系。与传统的实数卷积和乘法相比,超复数运算能够更好地捕捉通道或模态之间的相位和幅度关系,从而更有效地提取特征。此外,层级结构的设计使得模型能够分别学习模内和模间关系,避免了信息混淆。

关键设计:编码器中的PHC使用参数化的超复数权重,允许模型学习通道之间的复杂交互。融合模块中的PHM则通过超复数乘法融合不同模态的嵌入,并使用可学习的参数调整模态之间的权重。损失函数采用交叉熵损失,用于优化情感分类的性能。具体的网络结构和超参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,所提出的层级超复数网络在MAHNOB-HCI数据集上取得了显著的性能提升。具体而言,在效价(valence)和唤醒度(arousal)的分类任务中,该模型超越了现有的最先进模型。实验结果验证了超复数代数在多模态情感识别中的有效性,并表明该模型能够更好地捕捉模内和模间关系。

🎯 应用场景

该研究成果可应用于多种情感识别相关的领域,例如:人机交互、心理健康监测、辅助驾驶、在线教育等。通过准确识别用户的情绪状态,系统可以提供更个性化、更智能的服务,例如:根据用户的情绪调整交互方式、提供心理疏导建议、辅助驾驶员保持专注等。未来,该技术有望在情感计算领域发挥重要作用。

📄 摘要(原文)

Emotion recognition is relevant in various domains, ranging from healthcare to human-computer interaction. Physiological signals, being beyond voluntary control, offer reliable information for this purpose, unlike speech and facial expressions which can be controlled at will. They reflect genuine emotional responses, devoid of conscious manipulation, thereby enhancing the credibility of emotion recognition systems. Nonetheless, multimodal emotion recognition with deep learning models remains a relatively unexplored field. In this paper, we introduce a fully hypercomplex network with a hierarchical learning structure to fully capture correlations. Specifically, at the encoder level, the model learns intra-modal relations among the different channels of each input signal. Then, a hypercomplex fusion module learns inter-modal relations among the embeddings of the different modalities. The main novelty is in exploiting intra-modal relations by endowing the encoders with parameterized hypercomplex convolutions (PHCs) that thanks to hypercomplex algebra can capture inter-channel interactions within single modalities. Instead, the fusion module comprises parameterized hypercomplex multiplications (PHMs) that can model inter-modal correlations. The proposed architecture surpasses state-of-the-art models on the MAHNOB-HCI dataset for emotion recognition, specifically in classifying valence and arousal from electroencephalograms (EEGs) and peripheral physiological signals. The code of this study is available at https://github.com/ispamm/MHyEEG.