From Joy to Fear: A Benchmark of Emotion Estimation in Pop Song Lyrics

作者: Shay Dahary, Avi Edana, Alexander Apartsin, Yehudit Aperstein

分类: cs.CL, cs.AI

发布日期: 2025-09-06

备注: 5 pages, 2 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出流行歌曲歌词情感估计基准，评估LLM在情感属性预测中的表现。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感分析 歌词分析 大型语言模型 音乐信息检索 多标签分类

📋 核心要点

歌曲歌词的情感内容对塑造听众体验和影响音乐偏好至关重要，但现有方法难以准确捕捉歌词中细微的情感。
论文通过构建高质量情感标注数据集，并评估大型语言模型在零样本和微调场景下的表现，探索歌词情感属性预测。
实验结果表明，大型语言模型在歌词情感识别方面具有潜力，为音乐信息检索应用提供了有价值的模型选择参考。

📝 摘要（中文）

本文研究了歌曲歌词的多标签情感属性预测任务，旨在预测对应于六种基本情感的情感强度得分。通过平均意见得分（MOS）方法构建了一个手动标注的数据集，该方法汇总了多个评分者的标注，以确保可靠的ground-truth标签。利用该数据集，我们对几种公开可用的大型语言模型（LLM）在零样本场景下进行了全面评估。此外，我们还专门针对预测多标签情感得分微调了一个基于BERT的模型。实验结果揭示了零样本模型和微调模型在捕捉歌词细微情感内容方面的相对优势和局限性。我们的发现突出了LLM在创意文本情感识别方面的潜力，为基于情感的音乐信息检索应用提供了模型选择策略。

🔬 方法详解

问题定义：论文旨在解决流行歌曲歌词情感的多标签属性预测问题。现有方法，尤其是传统的情感分析方法，难以捕捉歌词中复杂、细微的情感表达，缺乏针对歌词特点的有效数据集和模型评估。

核心思路：论文的核心思路是构建一个高质量的歌词情感标注数据集，并利用该数据集评估现有大型语言模型（LLM）在零样本和微调场景下的情感预测能力。通过对比不同模型的表现，揭示LLM在歌词情感理解方面的优势和局限性。

技术框架：整体框架包括以下几个主要阶段：1) 数据集构建：采用平均意见得分（MOS）方法，由多个人工标注者对歌词进行情感标注，确保标注的可靠性。2) 模型评估：在零样本场景下评估多个公开可用的LLM，考察其直接应用能力。3) 模型微调：针对歌词情感预测任务，微调一个基于BERT的模型，提升其性能。4) 结果分析：对比零样本模型和微调模型的表现，分析其优势和局限性。

关键创新：论文的关键创新在于构建了一个高质量的流行歌曲歌词情感标注数据集，并系统地评估了LLM在歌词情感预测任务中的表现。这为后续研究提供了可靠的基准和参考。

关键设计：数据集构建采用MOS方法，确保标注质量。模型微调采用标准的BERT微调流程，损失函数选择适合多标签分类的损失函数（具体损失函数类型未知）。实验中对比了多个LLM，并分析了不同模型的性能差异。具体的超参数设置和网络结构细节在论文中可能有所描述（未知）。

📊 实验亮点

论文构建了一个高质量的歌词情感标注数据集，并评估了多个LLM在零样本和微调场景下的表现。实验结果表明，LLM在歌词情感识别方面具有潜力，微调后的BERT模型在情感预测任务上取得了较好的性能（具体性能数据未知）。该研究为基于情感的音乐信息检索应用提供了有价值的模型选择参考。

🎯 应用场景

该研究成果可应用于音乐信息检索领域，例如基于情感的歌曲推荐、歌词情感分析、音乐创作辅助等。通过理解歌词的情感内容，可以更好地满足用户的情感需求，提升音乐服务的个性化程度，并为音乐创作提供新的思路。

📄 摘要（原文）

The emotional content of song lyrics plays a pivotal role in shaping listener experiences and influencing musical preferences. This paper investigates the task of multi-label emotional attribution of song lyrics by predicting six emotional intensity scores corresponding to six fundamental emotions. A manually labeled dataset is constructed using a mean opinion score (MOS) approach, which aggregates annotations from multiple human raters to ensure reliable ground-truth labels. Leveraging this dataset, we conduct a comprehensive evaluation of several publicly available large language models (LLMs) under zero-shot scenarios. Additionally, we fine-tune a BERT-based model specifically for predicting multi-label emotion scores. Experimental results reveal the relative strengths and limitations of zero-shot and fine-tuned models in capturing the nuanced emotional content of lyrics. Our findings highlight the potential of LLMs for emotion recognition in creative texts, providing insights into model selection strategies for emotion-based music information retrieval applications. The labeled dataset is available at https://github.com/LLM-HITCS25S/LyricsEmotionAttribution.