MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge

📄 arXiv: 2505.24493v1 📥 PDF

作者: Xin Jing, Jiadong Wang, Iosif Tsangko, Andreas Triantafyllopoulos, Björn W. Schuller

分类: cs.AI, cs.SD, eess.AS

发布日期: 2025-05-30


💡 一句话要点

提出MELT:利用LLM嵌入知识自动标注多模态情感数据

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 大型语言模型 自动标注 GPT-4o 自监督学习

📋 核心要点

  1. 人工标注情感数据成本高、易出错,且标注者主观性强,缺乏一致性标准。
  2. 利用GPT-4o的知识,通过文本提示自动标注多模态情感数据,无需人工干预。
  3. 构建MELT数据集,通过微调SSL模型,在SER任务上验证了其有效性,并提升了性能。

📝 摘要(中文)

尽管语音情感识别(SER)随着深度学习的发展取得了显著进展,但数据标注仍然是一个主要的障碍。人工标注不仅成本高昂,而且容易出现不一致性——标注者通常有不同的偏好,并且可能缺乏必要的上下文知识,这可能导致标签的多样性和不准确性。同时,大型语言模型(LLM)已经成为文本数据标注的一种可扩展的替代方案。然而,LLM在没有人工监督的情况下执行情感语音数据标注的潜力尚未得到充分研究。为了解决这些问题,我们应用GPT-4o仅使用文本提示来标注从情景喜剧《老友记》中收集的多模态数据集。通过构建结构化的文本提示,我们的方法利用了GPT-4o在训练过程中积累的知识,展示了它可以在不直接访问多模态输入的情况下生成准确且上下文相关的注释。因此,我们提出了MELT,一个完全由GPT-4o标注的多模态情感数据集。我们通过微调四个自监督学习(SSL)骨干网络并评估跨情感数据集的语音情感识别性能来证明MELT的有效性。此外,我们的主观实验结果表明SER性能持续提高。

🔬 方法详解

问题定义:论文旨在解决语音情感识别(SER)领域中数据标注成本高昂、标注不一致以及缺乏上下文知识的问题。现有的人工标注方法不仅耗时费力,而且由于标注者的主观性和知识背景差异,容易产生不准确和不一致的标签,严重制约了SER模型的性能提升。

核心思路:论文的核心思路是利用大型语言模型(LLM),特别是GPT-4o,的强大知识储备和上下文理解能力,通过精心设计的文本提示,自动标注多模态情感数据。这种方法避免了人工标注的局限性,并能够生成更准确、更一致且具有上下文相关性的情感标签。

技术框架:该方法主要包含以下几个阶段:1) 数据收集:从情景喜剧《老友记》中收集多模态数据(包括语音和文本)。2) 提示工程:设计结构化的文本提示,引导GPT-4o理解对话的上下文和情感。3) 情感标注:使用GPT-4o根据文本提示对语音数据进行情感标注,生成MELT数据集。4) 模型微调:使用MELT数据集微调自监督学习(SSL)骨干网络,用于语音情感识别。5) 性能评估:在多个情感数据集上评估微调后的模型的性能,并与基线模型进行比较。

关键创新:该论文的关键创新在于:1) 首次探索了利用LLM(GPT-4o)自动标注多模态情感数据的可行性。2) 提出了一种基于文本提示的标注方法,无需直接访问多模态输入,即可生成高质量的情感标签。3) 构建了MELT数据集,为SER领域的研究提供了新的资源。

关键设计:在提示工程方面,论文采用了结构化的文本提示,包括对话的上下文、说话人的信息以及情感相关的关键词。在模型微调方面,选择了四个常用的自监督学习(SSL)骨干网络,并使用交叉熵损失函数进行训练。具体参数设置未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,使用MELT数据集微调后的SSL模型在SER任务上取得了显著的性能提升。具体提升幅度未在摘要中给出,属于未知信息。主观实验结果表明,使用MELT数据集进行训练能够持续提升SER性能,验证了MELT数据集的有效性。

🎯 应用场景

该研究成果可应用于智能客服、情感计算、人机交互等领域。通过自动标注情感数据,可以降低数据获取成本,提高模型训练效率,从而提升相关应用的情感识别能力和用户体验。未来,该方法有望推广到其他模态和领域,实现更广泛的情感智能应用。

📄 摘要(原文)

Although speech emotion recognition (SER) has advanced significantly with deep learning, annotation remains a major hurdle. Human annotation is not only costly but also subject to inconsistencies annotators often have different preferences and may lack the necessary contextual knowledge, which can lead to varied and inaccurate labels. Meanwhile, Large Language Models (LLMs) have emerged as a scalable alternative for annotating text data. However, the potential of LLMs to perform emotional speech data annotation without human supervision has yet to be thoroughly investigated. To address these problems, we apply GPT-4o to annotate a multimodal dataset collected from the sitcom Friends, using only textual cues as inputs. By crafting structured text prompts, our methodology capitalizes on the knowledge GPT-4o has accumulated during its training, showcasing that it can generate accurate and contextually relevant annotations without direct access to multimodal inputs. Therefore, we propose MELT, a multimodal emotion dataset fully annotated by GPT-4o. We demonstrate the effectiveness of MELT by fine-tuning four self-supervised learning (SSL) backbones and assessing speech emotion recognition performance across emotion datasets. Additionally, our subjective experiments\' results demonstrate a consistence performance improvement on SER.