Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples

📄 arXiv: 2409.04447v1 📥 PDF

作者: Qi Fan, Yutong Li, Yi Xin, Xinyu Cheng, Guanglai Gao, Miao Ma

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-08-23

备注: Accepted by ACM MM Workshop 2024

🔗 代码/项目: GITHUB


💡 一句话要点

针对多模态情感识别,提出结合对比学习与自训练的半监督学习框架,提升小样本场景性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 半监督学习 对比学习 自训练 模态融合 小样本学习 类别不平衡

📋 核心要点

  1. 多模态情感识别面临标注数据稀缺的挑战,尤其是在半监督学习场景下,如何有效利用未标注数据成为关键。
  2. 论文提出模态表示组合对比学习(MR-CCL)框架,并结合自训练方法,旨在提升模型在有限标注数据下的泛化能力。
  3. 实验结果表明,该方法在MER2024-SEMI挑战赛中取得了显著效果,验证了其在半监督多模态情感识别任务中的有效性。

📝 摘要(中文)

本文针对MER2024挑战赛的半监督学习子任务(MER2024-SEMI),研究如何利用有限的标注数据进行多模态情感识别,其中模态包括音频、语言和视觉信号。为解决类别不平衡问题,我们首先采用过采样策略。其次,我们提出了一个模态表示组合对比学习(MR-CCL)框架,用于在三模态输入数据上建立鲁棒的初始模型。然后,我们探索了一种自训练方法来扩充训练集。最后,我们通过多分类器加权软投票策略来增强预测的鲁棒性。实验结果表明,我们提出的方法在MER2024-SEMI挑战赛上是有效的,实现了88.25%的加权平均F1分数,并在排行榜上排名第6。

🔬 方法详解

问题定义:多模态情感识别任务中,标注数据通常非常有限,这导致模型训练困难,泛化能力不足。现有的方法难以充分利用未标注数据,且容易受到类别不平衡问题的影响。

核心思路:论文的核心思路是利用对比学习学习到鲁棒的模态表示,并结合自训练方法,迭代地利用未标注数据提升模型性能。通过对比学习,模型能够更好地区分不同情感类别,从而提高分类准确率。自训练则可以有效地扩充训练集,缓解数据稀缺问题。

技术框架:整体框架包含三个主要阶段:1) 基于过采样策略处理类别不平衡问题;2) 利用模态表示组合对比学习(MR-CCL)框架训练初始模型;3) 通过自训练方法迭代地扩充训练集并优化模型。最后,采用多分类器加权软投票策略融合多个模型的预测结果,提高预测的鲁棒性。

关键创新:论文的关键创新在于提出了模态表示组合对比学习(MR-CCL)框架。该框架通过组合不同的模态表示,并利用对比学习的目标函数,使得模型能够学习到更加鲁棒和具有区分性的特征表示。与传统的对比学习方法不同,MR-CCL框架更加关注多模态数据的特性,能够更好地利用不同模态之间的互补信息。

关键设计:在MR-CCL框架中,设计了特定的损失函数来优化不同模态表示之间的关系。自训练过程中,采用置信度阈值来筛选高质量的伪标签数据,避免引入噪声。多分类器加权软投票策略中,根据不同分类器的性能赋予不同的权重,以提高整体的预测准确率。具体的网络结构和参数设置在论文的实验部分有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在MER2024-SEMI挑战赛上取得了显著效果,实现了88.25%的加权平均F1分数,并在排行榜上排名第6。实验结果表明,提出的模态表示组合对比学习(MR-CCL)框架和自训练方法能够有效地提升模型在有限标注数据下的性能。相较于其他参赛队伍,该方法在多模态情感识别任务中具有一定的优势。

🎯 应用场景

该研究成果可应用于智能客服、情感聊天机器人、心理健康监测等领域。通过识别用户的情感状态,可以提供更加个性化和人性化的服务。此外,该方法在小样本场景下的有效性,使其在数据标注成本较高的应用中具有重要价值,例如医疗诊断、金融风控等。

📄 摘要(原文)

The Multimodal Emotion Recognition challenge MER2024 focuses on recognizing emotions using audio, language, and visual signals. In this paper, we present our submission solutions for the Semi-Supervised Learning Sub-Challenge (MER2024-SEMI), which tackles the issue of limited annotated data in emotion recognition. Firstly, to address the class imbalance, we adopt an oversampling strategy. Secondly, we propose a modality representation combinatorial contrastive learning (MR-CCL) framework on the trimodal input data to establish robust initial models. Thirdly, we explore a self-training approach to expand the training set. Finally, we enhance prediction robustness through a multi-classifier weighted soft voting strategy. Our proposed method is validated to be effective on the MER2024-SEMI Challenge, achieving a weighted average F-score of 88.25% and ranking 6th on the leaderboard. Our project is available at https://github.com/WooyoohL/MER2024-SEMI.