Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout
作者: Anbin QI, Zhongliang Liu, Xinyong Zhou, Jinba Xiao, Fengrun Zhang, Qi Gan, Ming Tao, Gaozheng Zhang, Lu Zhang
分类: cs.CV, cs.AI
发布日期: 2024-09-11
💡 一句话要点
提出EmoVCLIP模型,结合视觉-语言提示学习和模态Dropout,提升多模态情感识别精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 视觉-语言提示学习 模态Dropout 自训练 CLIP 情感分析 视频理解
📋 核心要点
- 现有方法在多模态情感识别中存在模态依赖问题,影响模型鲁棒性和泛化能力。
- 论文提出EmoVCLIP模型,利用视觉-语言提示学习增强CLIP在情感视频上的表现,并采用模态Dropout进行鲁棒融合。
- 实验结果表明,该模型在MER2024-SEMI赛道中排名第一,测试集准确率达到90.15%,验证了方法的有效性。
📝 摘要(中文)
本文提出了针对第二届多模态情感识别挑战赛Track 1 (MER2024-SEMI)的解决方案。为了提高情感识别的准确性和泛化性能,我们提出了一系列多模态情感识别方法。首先,我们引入了EmoVCLIP,这是一个基于CLIP微调的模型,它利用视觉-语言提示学习,专为基于视频的情感识别任务设计。通过在CLIP上进行提示学习,EmoVCLIP提高了预训练CLIP在情感视频上的性能。此外,为了解决多模态融合中的模态依赖问题,我们采用模态dropout进行鲁棒的信息融合。更进一步,为了帮助Baichuan更好地提取情感信息,我们建议使用GPT-4作为Baichuan的提示。最后,我们利用自训练策略来利用未标记的视频。在这个过程中,我们使用模型生成的高置信度伪标签来标记未标记的视频,并将它们纳入训练集。实验结果表明,我们的模型在MER2024-SEMI赛道中排名第一,在测试集上实现了90.15%的准确率。
🔬 方法详解
问题定义:论文旨在解决多模态情感识别任务中,模型对特定模态过度依赖的问题。现有方法在融合多模态信息时,容易受到噪声模态的影响,导致性能下降,泛化能力不足。
核心思路:论文的核心思路是利用视觉-语言提示学习增强预训练模型的特征提取能力,并采用模态Dropout策略来提高模型对不同模态的鲁棒性。通过提示学习,使模型更好地理解情感相关的视觉和语言信息。模态Dropout则强制模型学习从不同模态中提取互补信息,减少对单一模态的依赖。
技术框架:整体框架包含以下几个主要模块:1) 基于CLIP的EmoVCLIP模型,用于提取视频的视觉和语言特征;2) GPT-4提示的Baichuan模型,用于增强语言特征的情感表达能力;3) 模态Dropout层,用于在训练过程中随机丢弃部分模态的信息,从而提高模型的鲁棒性;4) 自训练模块,利用模型生成的伪标签来扩充训练数据。
关键创新:论文的关键创新在于将视觉-语言提示学习应用于情感识别任务,并结合模态Dropout策略。EmoVCLIP模型通过提示学习,使预训练的CLIP模型能够更好地适应情感视频的特征提取。模态Dropout则是一种简单有效的正则化方法,可以显著提高模型的鲁棒性。
关键设计:EmoVCLIP模型使用CLIP作为backbone,并通过添加可学习的prompt tokens来引导模型关注情感相关的视觉和语言信息。模态Dropout的dropout rate是一个关键参数,需要根据具体数据集进行调整。自训练过程中,伪标签的置信度阈值也需要仔细设置,以避免引入噪声数据。
🖼️ 关键图片
📊 实验亮点
该模型在MER2024-SEMI赛道中取得了第一名的成绩,测试集准确率达到90.15%。相较于其他参赛模型,该模型在多模态情感识别任务中表现出更强的竞争力和泛化能力。实验结果验证了视觉-语言提示学习和模态Dropout策略的有效性。
🎯 应用场景
该研究成果可应用于智能客服、情感分析、心理健康评估等领域。通过准确识别用户的情感状态,可以提供更个性化、更贴心的服务。例如,在智能客服中,可以根据用户的情绪调整对话策略,提高用户满意度。在心理健康评估中,可以辅助医生诊断,提高诊断效率。
📄 摘要(原文)
In this paper, we present our solution for the Second Multimodal Emotion Recognition Challenge Track 1(MER2024-SEMI). To enhance the accuracy and generalization performance of emotion recognition, we propose several methods for Multimodal Emotion Recognition. Firstly, we introduce EmoVCLIP, a model fine-tuned based on CLIP using vision-language prompt learning, designed for video-based emotion recognition tasks. By leveraging prompt learning on CLIP, EmoVCLIP improves the performance of pre-trained CLIP on emotional videos. Additionally, to address the issue of modality dependence in multimodal fusion, we employ modality dropout for robust information fusion. Furthermore, to aid Baichuan in better extracting emotional information, we suggest using GPT-4 as the prompt for Baichuan. Lastly, we utilize a self-training strategy to leverage unlabeled videos. In this process, we use unlabeled videos with high-confidence pseudo-labels generated by our model and incorporate them into the training set. Experimental results demonstrate that our model ranks 1st in the MER2024-SEMI track, achieving an accuracy of 90.15% on the test set.