PianoVAM: A Multimodal Piano Performance Dataset

作者: Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

分类: cs.SD, cs.AI, cs.CV, cs.MM, eess.AS

发布日期: 2025-09-10

备注: Accepted to the 26th International Society for Music Information Retrieval (ISMIR) Conference, 2025

💡 一句话要点

PianoVAM：一个包含视频、音频、MIDI等多模态钢琴演奏数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 钢琴演奏 多模态数据集 音乐信息检索 手部姿态估计 指法标注

📋 核心要点

音乐演奏的多模态特性激发了音乐信息检索领域对音频之外数据的兴趣，但高质量多模态钢琴数据集仍然稀缺。
PianoVAM数据集通过Disklavier钢琴同步记录音频、MIDI和视频，并结合手部姿态估计和半自动标注生成指法标签。
该数据集被用于音频和音视频钢琴转录的基准测试，为相关研究提供了高质量的数据基础和评估平台。

📝 摘要（中文）

本文介绍了一个全面的钢琴演奏数据集PianoVAM，它包含视频、音频、MIDI、手部关键点、指法标签和丰富的元数据。该数据集使用Disklavier钢琴录制，捕捉了业余钢琴家日常练习过程中的音频和MIDI数据，以及同步的顶视图视频，涵盖了真实且多样的演奏条件。手部关键点和指法标签分别使用预训练的手部姿态估计模型和半自动指法标注算法提取。文中讨论了数据收集过程中遇到的挑战以及不同模态之间的对齐过程。此外，还描述了基于视频中提取的手部关键点的指法标注方法。最后，展示了使用PianoVAM数据集进行纯音频和音视频钢琴转录的基准测试结果，并讨论了其他潜在的应用。

🔬 方法详解

问题定义：现有的音乐信息检索研究越来越关注多模态数据，但高质量的钢琴演奏数据集，特别是包含视频、手部动作等信息的数据集仍然不足。这限制了音视频结合的钢琴演奏分析和理解研究的进展。现有方法缺乏一个统一的、多模态对齐的数据集，难以进行有效的模型训练和评估。

核心思路：PianoVAM数据集的核心思路是构建一个包含多种模态信息的钢琴演奏数据集，包括音频、MIDI、视频、手部关键点和指法标签。通过同步录制和半自动标注，提供高质量的多模态数据，促进音视频结合的钢琴演奏分析和理解研究。

技术框架：PianoVAM数据集的构建流程主要包括以下几个阶段： 1. 数据采集：使用Disklavier钢琴同步录制音频和MIDI数据，并使用顶视图摄像头录制演奏视频。 2. 数据对齐：将音频、MIDI和视频数据进行时间同步对齐。 3. 手部关键点提取：使用预训练的手部姿态估计模型从视频中提取手部关键点。 4. 指法标注：基于手部关键点信息，使用半自动指法标注算法生成指法标签。 5. 数据发布：将所有数据整理成统一的格式，并提供相应的元数据。

关键创新：PianoVAM数据集的关键创新在于： 1. 多模态性：同时包含音频、MIDI、视频、手部关键点和指法标签，为多模态研究提供了丰富的数据。 2. 高质量：使用Disklavier钢琴和专业设备进行录制，保证了数据的质量。 3. 半自动标注：采用半自动指法标注算法，提高了标注效率和准确性。 4. 真实场景：在真实的练习场景下录制，更贴近实际应用。

关键设计： * 手部关键点提取：使用了预训练的手部姿态估计模型，具体模型名称未知。 * 指法标注算法：基于手部关键点的位置和运动信息，结合钢琴的物理结构和演奏规则，设计了半自动指法标注算法，具体算法细节未知。 * 数据对齐：采用了精确的时间同步技术，保证了不同模态数据之间的时间一致性。

📊 实验亮点

论文使用PianoVAM数据集进行了音频和音视频钢琴转录的基准测试。结果表明，结合视频信息可以显著提高钢琴转录的准确率，具体提升幅度未知。这些基准测试结果为后续研究提供了一个可靠的参考，并验证了PianoVAM数据集的价值。

🎯 应用场景

PianoVAM数据集可应用于多种场景，如自动音乐转录、音乐教育、钢琴演奏技巧分析、虚拟钢琴教学等。通过分析演奏者的手部动作和指法，可以为钢琴学习者提供个性化的指导和反馈。此外，该数据集还可以用于开发更智能的音乐生成和编辑工具，提升音乐创作的效率和质量。

📄 摘要（原文）

The multimodal nature of music performance has driven increasing interest in data beyond the audio domain within the music information retrieval (MIR) community. This paper introduces PianoVAM, a comprehensive piano performance dataset that includes videos, audio, MIDI, hand landmarks, fingering labels, and rich metadata. The dataset was recorded using a Disklavier piano, capturing audio and MIDI from amateur pianists during their daily practice sessions, alongside synchronized top-view videos in realistic and varied performance conditions. Hand landmarks and fingering labels were extracted using a pretrained hand pose estimation model and a semi-automated fingering annotation algorithm. We discuss the challenges encountered during data collection and the alignment process across different modalities. Additionally, we describe our fingering annotation method based on hand landmarks extracted from videos. Finally, we present benchmarking results for both audio-only and audio-visual piano transcription using the PianoVAM dataset and discuss additional potential applications.

PianoVAM: A Multimodal Piano Performance Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册