Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages

📄 arXiv: 2503.21806v1 📥 PDF

作者: Heqing Zou, Fengmao Lv, Desheng Zheng, Eng Siong Chng, Deepu Rajan

分类: cs.CL, cs.AI

发布日期: 2025-03-25

备注: Accepted to ICME 2025


💡 一句话要点

利用对比学习和大型语言模型实现跨语言零样本情感识别

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音情感识别 多语言学习 零样本学习 对比学习 大型语言模型 跨语言情感识别 情感计算

📋 核心要点

  1. 多语言语音情感识别面临语音特征和语言多样性带来的零样本学习挑战。
  2. 提出一种两阶段训练框架,通过对比学习对齐语音信号和语言特征,学习情感和语言无关的语音表示。
  3. 引入大规模合成多语言语音情感数据集M5SER,实验验证了该方法在零样本跨语言情感识别上的有效性。

📝 摘要(中文)

多语言语音情感识别旨在利用非接触式方法,跨不同语言估计说话者的情感状态。然而,语音特征的可变性和语言的多样性给零样本语音情感识别带来了巨大的挑战,尤其是在多语言数据集上。本文提出利用对比学习来优化多语言语音特征,并扩展大型语言模型以进行零样本多语言语音情感估计。具体来说,我们采用了一种新颖的两阶段训练框架,将语音信号与情感空间中的语言特征对齐,从而捕获情感感知和语言无关的语音表示。为了推进该领域的研究,我们引入了一个大规模的合成多语言语音情感数据集M5SER。实验结果表明,该方法在语音情感识别和零样本多语言语音情感识别方面均有效,包括以前未见过的数据集和语言。

🔬 方法详解

问题定义:论文旨在解决多语言环境下,语音情感识别中存在的零样本学习问题。现有方法难以有效处理不同语言的语音特征差异,导致跨语言情感识别性能下降。痛点在于如何学习到语言无关且情感相关的语音表示,从而实现跨语言的泛化能力。

核心思路:论文的核心思路是利用对比学习,将语音信号和语言特征映射到同一个情感空间,从而学习到情感感知和语言无关的语音表示。通过对比学习,模型能够区分不同情感的语音,同时对不同语言的相同情感语音进行聚类,从而提高跨语言的泛化能力。

技术框架:该方法采用两阶段训练框架。第一阶段,利用对比学习训练语音编码器,使其能够提取情感相关的语音特征。第二阶段,利用大型语言模型对语音特征进行情感分类。整体流程包括:1) 语音特征提取;2) 对比学习训练;3) 情感分类器训练;4) 零样本跨语言情感识别。

关键创新:该方法的主要创新点在于将对比学习和大型语言模型相结合,用于解决零样本多语言语音情感识别问题。通过对比学习,模型能够学习到语言无关的情感表示,从而提高跨语言的泛化能力。此外,论文还提出了一个大规模的合成多语言语音情感数据集M5SER,为该领域的研究提供了新的资源。

关键设计:在对比学习阶段,论文采用了InfoNCE损失函数,用于最大化相同情感语音之间的相似度,同时最小化不同情感语音之间的相似度。在情感分类阶段,论文使用了预训练的大型语言模型,并对其进行微调,以适应语音情感识别任务。M5SER数据集包含多种语言和情感类别,并采用了数据增强技术,以提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个多语言语音情感数据集上取得了显著的性能提升。特别是在零样本跨语言情感识别任务中,该方法能够有效地识别以前未见过的语言和数据集中的情感,证明了其良好的泛化能力。M5SER数据集的引入也为该领域的研究提供了新的基准和资源。

🎯 应用场景

该研究成果可应用于多语言客户服务、跨文化交流、全球范围内的心理健康监测等领域。通过准确识别不同语言使用者的情感状态,可以提升人机交互的自然性和有效性,并为跨文化交流提供更好的支持。未来,该技术有望在智能助手、情感计算和个性化推荐等领域发挥重要作用。

📄 摘要(原文)

Multilingual speech emotion recognition aims to estimate a speaker's emotional state using a contactless method across different languages. However, variability in voice characteristics and linguistic diversity poses significant challenges for zero-shot speech emotion recognition, especially with multilingual datasets. In this paper, we propose leveraging contrastive learning to refine multilingual speech features and extend large language models for zero-shot multilingual speech emotion estimation. Specifically, we employ a novel two-stage training framework to align speech signals with linguistic features in the emotional space, capturing both emotion-aware and language-agnostic speech representations. To advance research in this field, we introduce a large-scale synthetic multilingual speech emotion dataset, M5SER. Our experiments demonstrate the effectiveness of the proposed method in both speech emotion recognition and zero-shot multilingual speech emotion recognition, including previously unseen datasets and languages.