PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
作者: Hayeon Bang, Eunjin Choi, Megan Finch, Seungheon Doh, Seolhee Lee, Gyeong-Hoon Lee, Juhan Nam
分类: cs.SD, cs.AI, cs.MM, eess.AS
发布日期: 2024-11-04 (更新: 2024-11-07)
备注: Accepted for publication at the 3rd Workshop on NLP for Music and Audio (NLP4MusA 2024)
💡 一句话要点
PIAST:一个包含音频、符号和文本的多模态钢琴音乐数据集,促进MIR研究。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 钢琴音乐 多模态数据集 音乐信息检索 音频 MIDI 文本标签 音乐标注 音乐检索
📋 核心要点
- 钢琴音乐在MIR领域的研究日益重要,但缺乏带有文本标签的钢琴独奏音乐数据集限制了相关研究的进展。
- PIAST数据集通过收集YouTube上的钢琴曲目,并由专家进行人工标注,构建了包含音频、符号和文本的多模态数据集。
- 论文利用PIAST数据集进行了音乐标注和检索的基线实验,验证了其作为MIR研究资源的价值。
📝 摘要(中文)
本文提出了PIAST(PIano dataset with Audio, Symbolic, and Text),一个钢琴音乐数据集,旨在解决音乐信息检索(MIR)领域钢琴独奏音乐文本标签数据集的匮乏问题。该数据集包含从YouTube收集的9673首曲目,并通过音乐专家对其中2023首曲目进行人工标注,形成了两个子集:PIAST-YT和PIAST-AT。两个子集均包含音频、文本、标签注释以及利用最先进的钢琴转录和节拍跟踪模型转录的MIDI数据。论文还利用音频和MIDI数据进行了音乐标注和检索实验,并报告了基线性能,以展示该数据集作为MIR研究宝贵资源的潜力。
🔬 方法详解
问题定义:现有的音乐信息检索研究中,针对钢琴音乐的数据集相对匮乏,尤其缺乏包含文本标签的钢琴独奏数据集。这限制了利用多模态信息进行音乐分析和理解的研究进展。现有方法难以有效利用音频、符号和文本等多模态信息进行联合建模。
核心思路:论文的核心思路是构建一个大规模、多模态的钢琴音乐数据集,包含音频、MIDI符号信息和文本标签。通过人工标注和自动转录相结合的方式,为每首乐曲提供丰富的语义信息,从而促进基于多模态信息的音乐分析和检索研究。
技术框架:PIAST数据集的构建主要包含以下几个阶段:1) 数据收集:从YouTube收集大量的钢琴音乐视频。2) 数据标注:由音乐专家对部分曲目进行人工标注,包括语义标签等信息。3) MIDI转录:利用先进的钢琴转录和节拍跟踪模型,将音频转换为MIDI符号信息。4) 数据集划分:将数据集划分为PIAST-YT和PIAST-AT两个子集,分别对应YouTube数据和人工标注数据。
关键创新:PIAST数据集的关键创新在于其多模态性,同时包含音频、MIDI符号信息和文本标签。此外,数据集还采用了钢琴音乐特定的语义标签体系,能够更准确地描述音乐的内容和风格。人工标注的数据质量较高,为模型训练提供了可靠的监督信号。
关键设计:论文中使用了YouTube作为数据来源,保证了数据集的多样性和规模。人工标注过程中,采用了钢琴音乐特定的语义标签体系,例如乐曲的情感、风格、演奏技巧等。在MIDI转录方面,使用了当前最先进的钢琴转录和节拍跟踪模型,保证了转录的准确性。
🖼️ 关键图片
📊 实验亮点
论文利用PIAST数据集进行了音乐标注和检索的基线实验。实验结果表明,利用音频和MIDI数据可以有效地进行音乐标注和检索。虽然论文只报告了基线性能,但PIAST数据集的发布为后续研究提供了重要的资源,有望推动相关领域的研究进展。
🎯 应用场景
PIAST数据集可广泛应用于音乐信息检索、音乐生成、音乐教育等领域。例如,可以用于训练音乐标注模型,自动为钢琴曲目添加标签;可以用于构建音乐推荐系统,根据用户的喜好推荐合适的钢琴曲目;还可以用于辅助音乐教学,帮助学生更好地理解和学习钢琴音乐。
📄 摘要(原文)
While piano music has become a significant area of study in Music Information Retrieval (MIR), there is a notable lack of datasets for piano solo music with text labels. To address this gap, we present PIAST (PIano dataset with Audio, Symbolic, and Text), a piano music dataset. Utilizing a piano-specific taxonomy of semantic tags, we collected 9,673 tracks from YouTube and added human annotations for 2,023 tracks by music experts, resulting in two subsets: PIAST-YT and PIAST-AT. Both include audio, text, tag annotations, and transcribed MIDI utilizing state-of-the-art piano transcription and beat tracking models. Among many possible tasks with the multi-modal dataset, we conduct music tagging and retrieval using both audio and MIDI data and report baseline performances to demonstrate its potential as a valuable resource for MIR research.