Motion-X++: A Large-Scale Multimodal 3D Whole-body Human Motion Dataset
作者: Yuhong Zhang, Jing Lin, Ailing Zeng, Guanlin Wu, Shunlin Lu, Yurong Fu, Yuanhao Cai, Ruimao Zhang, Haoqian Wang, Lei Zhang
分类: cs.CV
发布日期: 2025-01-09
备注: 17 pages, 14 figures, This work extends and enhances the research published in the NeurIPS 2023 paper, "Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset". arXiv admin note: substantial text overlap with arXiv:2307.00818
💡 一句话要点
提出Motion-X++大规模多模态3D全身人体运动数据集,用于解决现有数据集在精细度和规模上的局限性。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D人体运动 多模态数据集 全身姿态估计 自动标注 运动生成
📋 核心要点
- 现有运动数据集缺乏面部表情、手势等精细信息,且规模受限于手动标注,难以满足复杂场景需求。
- 论文提出可扩展的自动标注流程,从RGB视频中提取3D全身运动和多模态标签,构建大规模数据集。
- Motion-X++包含多种模态数据和丰富的标注信息,实验验证了其在运动生成和人体姿态估计等任务中的有效性。
📝 摘要(中文)
本文介绍Motion-X++,一个大规模多模态3D表现性全身人体运动数据集。现有的运动数据集主要捕获身体姿势,缺乏面部表情、手势和细粒度的姿势描述,并且通常仅限于具有手动标记文本描述的实验室环境,从而限制了它们的可扩展性。为了解决这个问题,我们开发了一个可扩展的标注流程,可以自动从RGB视频中捕获3D全身人体运动和全面的纹理标签,并构建包含81.1K文本-运动对的Motion-X数据集。此外,我们通过改进标注流程、引入更多数据模态和扩大数据量,将Motion-X扩展到Motion-X++。Motion-X++提供了1950万个3D全身姿势标注,涵盖来自海量场景的120.5K个运动序列、80.8K个RGB视频、45.3K个音频、1950万个帧级全身姿势描述和120.5K个序列级语义标签。综合实验验证了我们标注流程的准确性,并强调了Motion-X++在生成具有配对多模态标签的表现性、精确和自然运动方面的显著优势,支持包括文本驱动的全身运动生成、音频驱动的运动生成、3D全身人体网格恢复和2D全身关键点估计等多个下游任务。
🔬 方法详解
问题定义:现有3D人体运动数据集主要存在两个痛点:一是缺乏精细的全身信息,如面部表情和手势;二是数据规模受限于人工标注,难以覆盖真实世界的多样性。这些局限性阻碍了相关研究在复杂场景下的应用。
核心思路:论文的核心思路是构建一个可扩展的自动标注流程,从而能够高效地从大规模RGB视频数据中提取高质量的3D全身人体运动数据,并配以多模态的文本、音频等信息。通过自动化标注,可以显著降低人工成本,从而实现数据集规模的快速增长。
技术框架:Motion-X++的构建流程主要包括以下几个阶段:1) 数据采集:从各种来源收集大规模的RGB视频数据。2) 3D全身姿态估计:使用先进的3D人体姿态估计方法从视频帧中提取3D全身姿态信息。3) 多模态标注:自动生成与运动序列相关的文本描述、音频信息等。4) 数据清洗与验证:对自动标注的数据进行清洗和验证,确保数据质量。
关键创新:Motion-X++的关键创新在于其可扩展的自动标注流程,该流程能够高效地生成高质量的3D全身人体运动数据和多模态标签。与现有数据集相比,Motion-X++在数据规模、信息丰富度和标注精度方面都具有显著优势。
关键设计:标注流程的具体技术细节未知,但可以推测可能包括:1) 使用预训练的3D人体姿态估计模型,如HMR、SMPLify等,进行姿态初始化。2) 采用时序一致性约束,保证运动序列的平滑性。3) 利用自然语言处理技术,自动生成与运动相关的文本描述。4) 设计有效的损失函数,用于优化3D姿态估计和文本描述生成。
🖼️ 关键图片
📊 实验亮点
Motion-X++数据集包含19.5M个3D全身姿势标注,涵盖120.5K个运动序列、80.8K个RGB视频和45.3K个音频。实验表明,基于Motion-X++训练的模型在文本驱动的运动生成、音频驱动的运动生成、3D人体网格恢复和2D关键点估计等任务上均取得了显著的性能提升。具体提升幅度未知。
🎯 应用场景
Motion-X++数据集可广泛应用于虚拟现实、人机交互、游戏开发、动画制作等领域。例如,可以用于训练更逼真、自然的虚拟角色,提升人机交互的沉浸感,或者用于生成更具表现力的动画内容。该数据集的发布将促进相关领域的研究和发展。
📄 摘要(原文)
In this paper, we introduce Motion-X++, a large-scale multimodal 3D expressive whole-body human motion dataset. Existing motion datasets predominantly capture body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions, and are typically limited to lab settings with manually labeled text descriptions, thereby restricting their scalability. To address this issue, we develop a scalable annotation pipeline that can automatically capture 3D whole-body human motion and comprehensive textural labels from RGB videos and build the Motion-X dataset comprising 81.1K text-motion pairs. Furthermore, we extend Motion-X into Motion-X++ by improving the annotation pipeline, introducing more data modalities, and scaling up the data quantities. Motion-X++ provides 19.5M 3D whole-body pose annotations covering 120.5K motion sequences from massive scenes, 80.8K RGB videos, 45.3K audios, 19.5M frame-level whole-body pose descriptions, and 120.5K sequence-level semantic labels. Comprehensive experiments validate the accuracy of our annotation pipeline and highlight Motion-X++'s significant benefits for generating expressive, precise, and natural motion with paired multimodal labels supporting several downstream tasks, including text-driven whole-body motion generation,audio-driven motion generation, 3D whole-body human mesh recovery, and 2D whole-body keypoints estimation, etc.