Benchmarking Sub-Genre Classification For Mainstage Dance Music
作者: Hongzhi Shu, Xinglin Li, Hongyu Jiang, Minghao Fu, Xinyu Li
分类: cs.SD, cs.AI, cs.MM
发布日期: 2024-09-10 (更新: 2025-08-04)
备注: WASPAA 2025
🔗 代码/项目: GITHUB
💡 一句话要点
针对主舞台舞曲子流派分类,提出新基准数据集与专用基线模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音乐分类 子流派分类 电子舞曲 数据集构建 软标签 基线模型
📋 核心要点
- 现有主舞台舞曲子流派分类缺乏全面数据集和有效方法,限制了相关应用发展。
- 提出包含新数据集和基线模型的基准,采用连续软标签处理混合子流派的复杂性。
- 实验表明,现有MLLM模型表现不佳,而专用基线模型实现了较高的分类精度。
📝 摘要(中文)
音乐分类是音乐信息检索的基石,支持广泛的应用。为了解决主舞台舞曲子流派分类中缺乏全面数据集和有效方法的问题,我们引入了一个新的基准,包含一个新数据集和基线模型。我们的数据集扩展了子流派的范围,以反映全球音乐节上顶级DJ表演的最新主舞台现场表演的多样性,捕捉了充满活力且快速发展的电子舞曲(EDM)场景,该场景吸引了全球数百万粉丝。我们采用连续软标签方法来适应混合多个子流派的曲目,保留其固有的复杂性。实验表明,即使是最先进的多模态大型语言模型(MLLM)也难以胜任这项任务,而我们专门的基线模型实现了高精度。该基准支持音乐推荐、DJ set策划和交互式多媒体系统等应用,并提供视频演示。我们的代码和数据都在https://github.com/Gariscat/housex-v2.git上开源。
🔬 方法详解
问题定义:论文旨在解决电子舞曲(EDM)中子流派分类的问题。现有方法在处理主舞台舞曲时,面临数据集不足、子流派覆盖不全面,以及难以处理混合多种风格的音乐作品等痛点。这些问题导致现有模型在实际应用中表现不佳。
核心思路:论文的核心思路是构建一个更全面、更具代表性的数据集,并设计专门的基线模型来解决子流派分类问题。通过引入连续软标签方法,能够更好地处理混合多种子流派的音乐作品,保留其复杂性。
技术框架:该研究的技术框架主要包括数据集构建和基线模型设计两个部分。数据集构建方面,收集了大量主舞台舞曲,并进行了细致的子流派标注。基线模型方面,采用了专门设计的模型结构,以适应子流派分类任务的特点。整体流程包括数据预处理、模型训练和性能评估。
关键创新:该研究的关键创新在于构建了一个新的、更全面的主舞台舞曲子流派数据集,并采用连续软标签方法来处理混合子流派的音乐作品。此外,专门设计的基线模型也针对该任务进行了优化,取得了较好的分类效果。
关键设计:论文中数据集的构建考虑了子流派的多样性和代表性,采用了连续软标签方法,允许一首歌曲同时属于多个子流派,并赋予不同的权重。基线模型的设计细节未知,但根据实验结果推测,可能采用了针对音频特征提取和分类优化的网络结构和损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是先进的多模态大型语言模型(MLLM)在该任务上也表现不佳,表明该任务的挑战性。而论文提出的专用基线模型能够实现较高的分类精度,具体性能数据未知,但证明了该方法在主舞台舞曲子流派分类上的有效性。
🎯 应用场景
该研究成果可应用于音乐推荐系统,为用户提供更精准的舞曲推荐。同时,可以辅助DJ进行setlist策划,提升现场表演效果。此外,还可应用于交互式多媒体系统,增强用户与音乐的互动体验,例如根据音乐风格自动调整视觉效果。
📄 摘要(原文)
Music classification, a cornerstone of music information retrieval, supports a wide array of applications. To address the lack of comprehensive datasets and effective methods for sub-genre classification in mainstage dance music, we introduce a novel benchmark featuring a new dataset and baseline. Our dataset expands the scope of sub-genres to reflect the diversity of recent mainstage live sets performed by leading DJs at global music festivals, capturing the vibrant and rapidly evolving electronic dance music (EDM) scene that engages millions of fans worldwide. We employ a continuous soft labeling approach to accommodate tracks blending multiple sub-genres, preserving their inherent complexity. Experiments demonstrate that even state-of-the-art multimodal large language models (MLLMs) struggle with this task, while our specialized baseline models achieve high accuracy. This benchmark supports applications such as music recommendation, DJ set curation, and interactive multimedia systems, with video demos provided. Our code and data are all open-sourced at https://github.com/Gariscat/housex-v2.git.