SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition

作者: Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2024-08-20 (更新: 2024-08-21)

备注: Ranked 1st in MER24@IJCAI and MRAC24@ACM MM (MER-NOISE & MER-OV (self-evaluated))

DOI: 10.1145/3689092.3689404

🔗 代码/项目: GITHUB

💡 一句话要点

利用Conv-Attention增强Emotion-LLaMA，提升多模态情感识别性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 Emotion-LLaMA Conv-Attention 伪标签 特征融合 噪声抑制 大型语言模型

📋 核心要点

现有情感识别方法面临标注数据不足的挑战，限制了模型性能的提升。
提出利用Emotion-LLaMA生成高质量伪标签，并设计Conv-Attention机制增强多模态特征融合。
实验表明，该方法在MER2024挑战赛的两个赛道上均取得领先，显著提升了情感识别的准确率。

📝 摘要（中文）

本文介绍了我们在MER2024挑战赛中，MER-NOISE和MER-OV赛道的获胜方法。我们的系统利用Emotion-LLaMA先进的情感理解能力，为未标记样本生成高质量的标注，从而解决了标记数据有限的挑战。为了增强多模态融合，同时减轻模态特定噪声的影响，我们引入了Conv-Attention，一个轻量级且高效的混合框架。大量的实验验证了我们方法的有效性。在MER-NOISE赛道中，我们的系统实现了85.30%的最先进的加权平均F-score，分别超过第二名和第三名团队1.47%和1.65%。对于MER-OV赛道，我们使用Emotion-LLaMA进行开放词汇标注，与GPT-4V相比，平均准确率和召回率提高了8.52%，在所有参与的大型多模态模型中获得了最高分。Emotion-LLaMA的代码和模型可在https://github.com/ZebangCheng/Emotion-LLaMA 获取。

🔬 方法详解

问题定义：多模态情感识别旨在从语音、文本和视觉等多模态数据中准确识别情感。现有方法在训练数据有限的情况下，容易过拟合，且难以有效融合不同模态的信息，同时模态特定噪声会进一步降低识别精度。

核心思路：本文的核心思路是利用大型语言模型（LLM）Emotion-LLaMA的强大情感理解能力，为未标注数据生成高质量的伪标签，从而扩充训练数据集。同时，设计Conv-Attention模块，在融合多模态特征时，自适应地关注重要特征，抑制噪声干扰。

技术框架：整体框架包含以下几个主要阶段：1) 利用Emotion-LLaMA对未标注数据进行情感标注，生成伪标签；2) 使用标注数据和伪标签数据训练多模态情感识别模型；3) 在多模态特征融合阶段，使用Conv-Attention模块，对不同模态的特征进行加权融合；4) 使用加权融合后的特征进行情感分类。

关键创新：最重要的技术创新点在于Conv-Attention模块的设计。该模块结合了卷积神经网络（CNN）和注意力机制的优点，利用CNN提取局部特征，并利用注意力机制自适应地学习不同特征的重要性权重。与传统的注意力机制相比，Conv-Attention更加轻量级和高效，能够有效抑制模态特定噪声。

关键设计：Conv-Attention模块的具体设计如下：首先，使用卷积层提取多模态特征的局部信息；然后，使用注意力机制计算每个特征的重要性权重；最后，使用权重对特征进行加权融合。损失函数采用交叉熵损失函数，优化器采用AdamW优化器。在Emotion-LLaMA的使用上，采用了prompt engineering来提升生成伪标签的质量。

🖼️ 关键图片

📊 实验亮点

在MER-NOISE赛道中，该系统取得了85.30%的加权平均F-score，超越第二名1.47%，超越第三名1.65%，达到state-of-the-art水平。在MER-OV赛道中，使用Emotion-LLaMA进行开放词汇标注，相比GPT-4V，平均准确率和召回率提升了8.52%，在所有参与的大型多模态模型中排名第一。

🎯 应用场景

该研究成果可应用于智能客服、情感分析、人机交互等领域。通过准确识别用户的情感状态，可以提升用户体验，实现更加个性化和智能化的服务。例如，在智能客服中，可以根据用户的情感状态调整对话策略，提供更加贴心的服务。在人机交互中，可以根据用户的情感状态调整交互方式，提升交互的自然性和流畅性。

📄 摘要（原文）

This paper presents our winning approach for the MER-NOISE and MER-OV tracks of the MER2024 Challenge on multimodal emotion recognition. Our system leverages the advanced emotional understanding capabilities of Emotion-LLaMA to generate high-quality annotations for unlabeled samples, addressing the challenge of limited labeled data. To enhance multimodal fusion while mitigating modality-specific noise, we introduce Conv-Attention, a lightweight and efficient hybrid framework. Extensive experimentation vali-dates the effectiveness of our approach. In the MER-NOISE track, our system achieves a state-of-the-art weighted average F-score of 85.30%, surpassing the second and third-place teams by 1.47% and 1.65%, respectively. For the MER-OV track, our utilization of Emotion-LLaMA for open-vocabulary annotation yields an 8.52% improvement in average accuracy and recall compared to GPT-4V, securing the highest score among all participating large multimodal models. The code and model for Emotion-LLaMA are available at https://github.com/ZebangCheng/Emotion-LLaMA.

SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理