SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition
作者: Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann
分类: cs.MM, cs.CV, cs.SD, eess.AS
发布日期: 2024-08-20 (更新: 2024-08-21)
备注: Ranked 1st in MER24@IJCAI and MRAC24@ACM MM (MER-NOISE & MER-OV (self-evaluated))
🔗 代码/项目: GITHUB
💡 一句话要点
利用Conv-Attention增强Emotion-LLaMA,提升多模态情感识别性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 Emotion-LLaMA Conv-Attention 伪标签 特征融合 噪声抑制 大型语言模型
📋 核心要点
- 现有情感识别方法面临标注数据不足的挑战,限制了模型性能的提升。
- 提出利用Emotion-LLaMA生成高质量伪标签,并设计Conv-Attention机制增强多模态特征融合。
- 实验表明,该方法在MER2024挑战赛的两个赛道上均取得领先,显著提升了情感识别的准确率。
📝 摘要(中文)
本文介绍了我们在MER2024挑战赛中,MER-NOISE和MER-OV赛道的获胜方法。我们的系统利用Emotion-LLaMA先进的情感理解能力,为未标记样本生成高质量的标注,从而解决了标记数据有限的挑战。为了增强多模态融合,同时减轻模态特定噪声的影响,我们引入了Conv-Attention,一个轻量级且高效的混合框架。大量的实验验证了我们方法的有效性。在MER-NOISE赛道中,我们的系统实现了85.30%的最先进的加权平均F-score,分别超过第二名和第三名团队1.47%和1.65%。对于MER-OV赛道,我们使用Emotion-LLaMA进行开放词汇标注,与GPT-4V相比,平均准确率和召回率提高了8.52%,在所有参与的大型多模态模型中获得了最高分。Emotion-LLaMA的代码和模型可在https://github.com/ZebangCheng/Emotion-LLaMA 获取。
🔬 方法详解
问题定义:多模态情感识别旨在从语音、文本和视觉等多模态数据中准确识别情感。现有方法在训练数据有限的情况下,容易过拟合,且难以有效融合不同模态的信息,同时模态特定噪声会进一步降低识别精度。
核心思路:本文的核心思路是利用大型语言模型(LLM)Emotion-LLaMA的强大情感理解能力,为未标注数据生成高质量的伪标签,从而扩充训练数据集。同时,设计Conv-Attention模块,在融合多模态特征时,自适应地关注重要特征,抑制噪声干扰。
技术框架:整体框架包含以下几个主要阶段:1) 利用Emotion-LLaMA对未标注数据进行情感标注,生成伪标签;2) 使用标注数据和伪标签数据训练多模态情感识别模型;3) 在多模态特征融合阶段,使用Conv-Attention模块,对不同模态的特征进行加权融合;4) 使用加权融合后的特征进行情感分类。
关键创新:最重要的技术创新点在于Conv-Attention模块的设计。该模块结合了卷积神经网络(CNN)和注意力机制的优点,利用CNN提取局部特征,并利用注意力机制自适应地学习不同特征的重要性权重。与传统的注意力机制相比,Conv-Attention更加轻量级和高效,能够有效抑制模态特定噪声。
关键设计:Conv-Attention模块的具体设计如下:首先,使用卷积层提取多模态特征的局部信息;然后,使用注意力机制计算每个特征的重要性权重;最后,使用权重对特征进行加权融合。损失函数采用交叉熵损失函数,优化器采用AdamW优化器。在Emotion-LLaMA的使用上,采用了prompt engineering来提升生成伪标签的质量。
🖼️ 关键图片
📊 实验亮点
在MER-NOISE赛道中,该系统取得了85.30%的加权平均F-score,超越第二名1.47%,超越第三名1.65%,达到state-of-the-art水平。在MER-OV赛道中,使用Emotion-LLaMA进行开放词汇标注,相比GPT-4V,平均准确率和召回率提升了8.52%,在所有参与的大型多模态模型中排名第一。
🎯 应用场景
该研究成果可应用于智能客服、情感分析、人机交互等领域。通过准确识别用户的情感状态,可以提升用户体验,实现更加个性化和智能化的服务。例如,在智能客服中,可以根据用户的情感状态调整对话策略,提供更加贴心的服务。在人机交互中,可以根据用户的情感状态调整交互方式,提升交互的自然性和流畅性。
📄 摘要(原文)
This paper presents our winning approach for the MER-NOISE and MER-OV tracks of the MER2024 Challenge on multimodal emotion recognition. Our system leverages the advanced emotional understanding capabilities of Emotion-LLaMA to generate high-quality annotations for unlabeled samples, addressing the challenge of limited labeled data. To enhance multimodal fusion while mitigating modality-specific noise, we introduce Conv-Attention, a lightweight and efficient hybrid framework. Extensive experimentation vali-dates the effectiveness of our approach. In the MER-NOISE track, our system achieves a state-of-the-art weighted average F-score of 85.30%, surpassing the second and third-place teams by 1.47% and 1.65%, respectively. For the MER-OV track, our utilization of Emotion-LLaMA for open-vocabulary annotation yields an 8.52% improvement in average accuracy and recall compared to GPT-4V, securing the highest score among all participating large multimodal models. The code and model for Emotion-LLaMA are available at https://github.com/ZebangCheng/Emotion-LLaMA.