Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples

作者: Qi Fan, Yutong Li, Yi Xin, Xinyu Cheng, Guanglai Gao, Miao Ma

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-08-23

备注: Accepted by ACM MM Workshop 2024

🔗 代码/项目: GITHUB

💡 一句话要点

针对多模态情感识别，提出结合对比学习与自训练的半监督学习框架，提升小样本场景性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 半监督学习 对比学习 自训练 模态融合 小样本学习 类别不平衡

📋 核心要点

多模态情感识别面临标注数据稀缺的挑战，尤其是在半监督学习场景下，如何有效利用未标注数据成为关键。
论文提出模态表示组合对比学习（MR-CCL）框架，并结合自训练方法，旨在提升模型在有限标注数据下的泛化能力。
实验结果表明，该方法在MER2024-SEMI挑战赛中取得了显著效果，验证了其在半监督多模态情感识别任务中的有效性。

📝 摘要（中文）

本文针对MER2024挑战赛的半监督学习子任务（MER2024-SEMI），研究如何利用有限的标注数据进行多模态情感识别，其中模态包括音频、语言和视觉信号。为解决类别不平衡问题，我们首先采用过采样策略。其次，我们提出了一个模态表示组合对比学习（MR-CCL）框架，用于在三模态输入数据上建立鲁棒的初始模型。然后，我们探索了一种自训练方法来扩充训练集。最后，我们通过多分类器加权软投票策略来增强预测的鲁棒性。实验结果表明，我们提出的方法在MER2024-SEMI挑战赛上是有效的，实现了88.25%的加权平均F1分数，并在排行榜上排名第6。

🔬 方法详解

问题定义：多模态情感识别任务中，标注数据通常非常有限，这导致模型训练困难，泛化能力不足。现有的方法难以充分利用未标注数据，且容易受到类别不平衡问题的影响。

核心思路：论文的核心思路是利用对比学习学习到鲁棒的模态表示，并结合自训练方法，迭代地利用未标注数据提升模型性能。通过对比学习，模型能够更好地区分不同情感类别，从而提高分类准确率。自训练则可以有效地扩充训练集，缓解数据稀缺问题。

技术框架：整体框架包含三个主要阶段：1) 基于过采样策略处理类别不平衡问题；2) 利用模态表示组合对比学习（MR-CCL）框架训练初始模型；3) 通过自训练方法迭代地扩充训练集并优化模型。最后，采用多分类器加权软投票策略融合多个模型的预测结果，提高预测的鲁棒性。

关键创新：论文的关键创新在于提出了模态表示组合对比学习（MR-CCL）框架。该框架通过组合不同的模态表示，并利用对比学习的目标函数，使得模型能够学习到更加鲁棒和具有区分性的特征表示。与传统的对比学习方法不同，MR-CCL框架更加关注多模态数据的特性，能够更好地利用不同模态之间的互补信息。

关键设计：在MR-CCL框架中，设计了特定的损失函数来优化不同模态表示之间的关系。自训练过程中，采用置信度阈值来筛选高质量的伪标签数据，避免引入噪声。多分类器加权软投票策略中，根据不同分类器的性能赋予不同的权重，以提高整体的预测准确率。具体的网络结构和参数设置在论文的实验部分有详细描述。

🖼️ 关键图片

📊 实验亮点

该方法在MER2024-SEMI挑战赛上取得了显著效果，实现了88.25%的加权平均F1分数，并在排行榜上排名第6。实验结果表明，提出的模态表示组合对比学习（MR-CCL）框架和自训练方法能够有效地提升模型在有限标注数据下的性能。相较于其他参赛队伍，该方法在多模态情感识别任务中具有一定的优势。

🎯 应用场景

该研究成果可应用于智能客服、情感聊天机器人、心理健康监测等领域。通过识别用户的情感状态，可以提供更加个性化和人性化的服务。此外，该方法在小样本场景下的有效性，使其在数据标注成本较高的应用中具有重要价值，例如医疗诊断、金融风控等。

📄 摘要（原文）

The Multimodal Emotion Recognition challenge MER2024 focuses on recognizing emotions using audio, language, and visual signals. In this paper, we present our submission solutions for the Semi-Supervised Learning Sub-Challenge (MER2024-SEMI), which tackles the issue of limited annotated data in emotion recognition. Firstly, to address the class imbalance, we adopt an oversampling strategy. Secondly, we propose a modality representation combinatorial contrastive learning (MR-CCL) framework on the trimodal input data to establish robust initial models. Thirdly, we explore a self-training approach to expand the training set. Finally, we enhance prediction robustness through a multi-classifier weighted soft voting strategy. Our proposed method is validated to be effective on the MER2024-SEMI Challenge, achieving a weighted average F-score of 88.25% and ranking 6th on the leaderboard. Our project is available at https://github.com/WooyoohL/MER2024-SEMI.

Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理