PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text

作者: Hayeon Bang, Eunjin Choi, Megan Finch, Seungheon Doh, Seolhee Lee, Gyeong-Hoon Lee, Juhan Nam

分类: cs.SD, cs.AI, cs.MM, eess.AS

发布日期: 2024-11-04 (更新: 2024-11-07)

备注: Accepted for publication at the 3rd Workshop on NLP for Music and Audio (NLP4MusA 2024)

💡 一句话要点

PIAST：一个包含音频、符号和文本的多模态钢琴音乐数据集，促进MIR研究。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 钢琴音乐 多模态数据集 音乐信息检索 音频 MIDI 文本标签 音乐标注 音乐检索

📋 核心要点

钢琴音乐在MIR领域的研究日益重要，但缺乏带有文本标签的钢琴独奏音乐数据集限制了相关研究的进展。
PIAST数据集通过收集YouTube上的钢琴曲目，并由专家进行人工标注，构建了包含音频、符号和文本的多模态数据集。
论文利用PIAST数据集进行了音乐标注和检索的基线实验，验证了其作为MIR研究资源的价值。

📝 摘要（中文）

本文提出了PIAST（PIano dataset with Audio, Symbolic, and Text），一个钢琴音乐数据集，旨在解决音乐信息检索（MIR）领域钢琴独奏音乐文本标签数据集的匮乏问题。该数据集包含从YouTube收集的9673首曲目，并通过音乐专家对其中2023首曲目进行人工标注，形成了两个子集：PIAST-YT和PIAST-AT。两个子集均包含音频、文本、标签注释以及利用最先进的钢琴转录和节拍跟踪模型转录的MIDI数据。论文还利用音频和MIDI数据进行了音乐标注和检索实验，并报告了基线性能，以展示该数据集作为MIR研究宝贵资源的潜力。

🔬 方法详解

问题定义：现有的音乐信息检索研究中，针对钢琴音乐的数据集相对匮乏，尤其缺乏包含文本标签的钢琴独奏数据集。这限制了利用多模态信息进行音乐分析和理解的研究进展。现有方法难以有效利用音频、符号和文本等多模态信息进行联合建模。

核心思路：论文的核心思路是构建一个大规模、多模态的钢琴音乐数据集，包含音频、MIDI符号信息和文本标签。通过人工标注和自动转录相结合的方式，为每首乐曲提供丰富的语义信息，从而促进基于多模态信息的音乐分析和检索研究。

技术框架：PIAST数据集的构建主要包含以下几个阶段：1) 数据收集：从YouTube收集大量的钢琴音乐视频。2) 数据标注：由音乐专家对部分曲目进行人工标注，包括语义标签等信息。3) MIDI转录：利用先进的钢琴转录和节拍跟踪模型，将音频转换为MIDI符号信息。4) 数据集划分：将数据集划分为PIAST-YT和PIAST-AT两个子集，分别对应YouTube数据和人工标注数据。

关键创新：PIAST数据集的关键创新在于其多模态性，同时包含音频、MIDI符号信息和文本标签。此外，数据集还采用了钢琴音乐特定的语义标签体系，能够更准确地描述音乐的内容和风格。人工标注的数据质量较高，为模型训练提供了可靠的监督信号。

关键设计：论文中使用了YouTube作为数据来源，保证了数据集的多样性和规模。人工标注过程中，采用了钢琴音乐特定的语义标签体系，例如乐曲的情感、风格、演奏技巧等。在MIDI转录方面，使用了当前最先进的钢琴转录和节拍跟踪模型，保证了转录的准确性。

🖼️ 关键图片

📊 实验亮点

论文利用PIAST数据集进行了音乐标注和检索的基线实验。实验结果表明，利用音频和MIDI数据可以有效地进行音乐标注和检索。虽然论文只报告了基线性能，但PIAST数据集的发布为后续研究提供了重要的资源，有望推动相关领域的研究进展。

🎯 应用场景

PIAST数据集可广泛应用于音乐信息检索、音乐生成、音乐教育等领域。例如，可以用于训练音乐标注模型，自动为钢琴曲目添加标签；可以用于构建音乐推荐系统，根据用户的喜好推荐合适的钢琴曲目；还可以用于辅助音乐教学，帮助学生更好地理解和学习钢琴音乐。

📄 摘要（原文）

While piano music has become a significant area of study in Music Information Retrieval (MIR), there is a notable lack of datasets for piano solo music with text labels. To address this gap, we present PIAST (PIano dataset with Audio, Symbolic, and Text), a piano music dataset. Utilizing a piano-specific taxonomy of semantic tags, we collected 9,673 tracks from YouTube and added human annotations for 2,023 tracks by music experts, resulting in two subsets: PIAST-YT and PIAST-AT. Both include audio, text, tag annotations, and transcribed MIDI utilizing state-of-the-art piano transcription and beat tracking models. Among many possible tasks with the multi-modal dataset, we conduct music tagging and retrieval using both audio and MIDI data and report baseline performances to demonstrate its potential as a valuable resource for MIR research.

PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理