PianoVAM: A Multimodal Piano Performance Dataset

作者: Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

分类: cs.SD, cs.AI, cs.CV, cs.MM, eess.AS

发布日期: 2025-09-10

备注: Accepted to the 26th International Society for Music Information Retrieval (ISMIR) Conference, 2025

💡 一句话要点

PianoVAM：一个包含视频、音频、MIDI、手部关键点等多模态钢琴演奏数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 钢琴演奏 多模态数据集 音乐信息检索 手部姿势估计 指法标注

📋 核心要点

现有的音乐信息检索研究日益关注多模态数据，但缺乏包含多种模态信息的综合性钢琴演奏数据集。
PianoVAM数据集通过Disklavier钢琴录制，同步捕捉音频、MIDI、视频以及手部关键点和指法标签等多模态信息。
论文基于PianoVAM数据集，对音频和音视频钢琴转录任务进行了基准测试，并探讨了数据集的潜在应用。

📝 摘要（中文）

音乐表演的多模态特性激发了音乐信息检索(MIR)领域对音频之外数据的日益增长的兴趣。本文介绍了PianoVAM，这是一个综合性的钢琴演奏数据集，包括视频、音频、MIDI、手部关键点、指法标签和丰富的元数据。该数据集使用Disklavier钢琴录制，捕捉了业余钢琴家在日常练习中的音频和MIDI，以及在真实和多样的演奏条件下同步的顶视图视频。手部关键点和指法标签是使用预训练的手部姿势估计模型和半自动指法标注算法提取的。我们讨论了数据收集过程中遇到的挑战以及不同模态之间的对齐过程。此外，我们描述了基于从视频中提取的手部关键点的指法标注方法。最后，我们使用PianoVAM数据集展示了纯音频和音视频钢琴转录的基准测试结果，并讨论了其他潜在的应用。

🔬 方法详解

问题定义：现有的音乐信息检索研究，特别是钢琴演奏分析，越来越需要多模态数据。然而，公开可用的数据集往往只包含音频或MIDI信息，缺乏视频、手部动作等模态的数据，限制了相关研究的深入开展。因此，如何构建一个包含多种模态信息的综合性钢琴演奏数据集，是本文要解决的问题。

核心思路：论文的核心思路是通过Disklavier钢琴同步录制音频、MIDI和视频数据，并利用预训练模型和半自动标注算法提取手部关键点和指法标签。通过这种方式，构建一个包含多种模态信息的、高质量的钢琴演奏数据集，为相关研究提供数据支持。

技术框架：PianoVAM数据集的构建流程主要包括以下几个阶段：1) 使用Disklavier钢琴录制音频、MIDI和视频数据；2) 使用预训练的手部姿势估计模型提取视频中的手部关键点；3) 使用半自动指法标注算法，基于手部关键点标注指法标签；4) 对不同模态的数据进行时间对齐；5) 构建数据集并提供相应的元数据。

关键创新：该论文的关键创新在于构建了一个包含多种模态信息的综合性钢琴演奏数据集PianoVAM。与现有的钢琴演奏数据集相比，PianoVAM不仅包含音频和MIDI信息，还包含视频、手部关键点和指法标签等多模态信息，为相关研究提供了更丰富的数据来源。此外，论文还提出了一种基于手部关键点的半自动指法标注算法，提高了指法标注的效率和准确性。

关键设计：在数据录制方面，使用了Disklavier钢琴，可以同步录制音频和MIDI数据。在手部关键点提取方面，使用了预训练的手部姿势估计模型，提高了提取的准确性。在指法标注方面，使用了半自动标注算法，结合人工校正，保证了标注的质量。在数据集构建方面，对不同模态的数据进行了时间对齐，并提供了丰富的元数据，方便用户使用。

🖼️ 关键图片

📊 实验亮点

论文使用PianoVAM数据集对音频和音视频钢琴转录任务进行了基准测试。实验结果表明，利用视频信息可以显著提高钢琴转录的准确率。例如，在音视频钢琴转录任务中，模型的性能相比纯音频模型有显著提升，证明了多模态数据融合的有效性。

🎯 应用场景

PianoVAM数据集可应用于多种音乐信息检索任务，如自动音乐转录、音乐表演分析、虚拟钢琴教学等。该数据集能够促进音视频结合的钢琴演奏分析研究，提升相关算法的性能和鲁棒性，并为开发更智能的音乐教育工具提供数据支持。

📄 摘要（原文）

The multimodal nature of music performance has driven increasing interest in data beyond the audio domain within the music information retrieval (MIR) community. This paper introduces PianoVAM, a comprehensive piano performance dataset that includes videos, audio, MIDI, hand landmarks, fingering labels, and rich metadata. The dataset was recorded using a Disklavier piano, capturing audio and MIDI from amateur pianists during their daily practice sessions, alongside synchronized top-view videos in realistic and varied performance conditions. Hand landmarks and fingering labels were extracted using a pretrained hand pose estimation model and a semi-automated fingering annotation algorithm. We discuss the challenges encountered during data collection and the alignment process across different modalities. Additionally, we describe our fingering annotation method based on hand landmarks extracted from videos. Finally, we present benchmarking results for both audio-only and audio-visual piano transcription using the PianoVAM dataset and discuss additional potential applications.

PianoVAM: A Multimodal Piano Performance Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理