Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset
作者: Claire McLean, Makenzie Meendering, Tristan Swartz, Orri Gabbay, Alexandra Olsen, Rachel Jacobs, Nicholas Rosen, Philippe de Bree, Tony Garcia, Gadsden Merrill, Jake Sandakly, Julia Buffalini, Neham Jain, Steven Krenn, Moneish Kumar, Dejan Markovic, Evonne Ng, Fabian Prada, Andrew Saba, Siwei Zhang, Vasu Agrawal, Tim Godisart, Alexander Richard, Michael Zollhoefer
分类: cs.CV
发布日期: 2025-10-17
💡 一句话要点
Meta发布Embody 3D:大规模多模态人体运动与行为数据集
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D人体运动 多模态数据集 行为理解 人机交互 运动捕捉 多人交互 手势识别
📋 核心要点
- 现有3D人体运动和行为数据集规模有限,难以支持复杂场景下的模型训练和泛化。
- Embody 3D数据集通过多相机系统捕捉大规模、多样化的单人和多人交互场景的3D运动数据。
- 该数据集包含人体运动跟踪、手部姿态、身体形状、文本标注和独立音轨等多模态信息。
📝 摘要(中文)
Meta的Codec Avatars实验室推出了Embody 3D,这是一个大规模多模态数据集,包含来自439名参与者的500小时3D运动数据,这些数据是在多相机采集环境中收集的,总计超过5400万帧的跟踪3D运动。该数据集涵盖了广泛的单人运动数据,包括提示运动、手势和移动;以及多人行为和对话数据,如讨论、不同情绪状态下的对话、协作活动以及类似公寓空间中的共同生活场景。我们提供跟踪的人体运动数据,包括手部跟踪和身体形状、文本注释以及每个参与者的独立音轨。
🔬 方法详解
问题定义:现有的人体运动和行为数据集在规模、多样性和模态丰富度方面存在不足,难以满足日益增长的3D人体建模、动画和行为理解等任务的需求。特别是对于多人交互场景,高质量的数据集更是稀缺。
核心思路:Embody 3D的核心思路是通过大规模的数据采集,覆盖尽可能多的单人和多人运动和行为模式。通过多相机系统同步捕捉3D运动数据,并辅以文本标注和独立音轨,提供丰富的多模态信息,从而为相关研究提供坚实的数据基础。
技术框架:Embody 3D数据集的构建主要包含数据采集和数据处理两个阶段。数据采集阶段采用多相机系统,同步捕捉439名参与者的运动数据。数据处理阶段则包括3D运动跟踪、手部姿态估计、身体形状重建、文本标注和音轨提取等步骤。最终,数据集包含500小时的3D运动数据,超过5400万帧。
关键创新:Embody 3D的关键创新在于其规模和多样性。500小时的数据量远超现有数据集,涵盖了单人运动、手势、移动以及多人对话、协作等多种场景。此外,数据集的多模态特性(3D运动、文本、音频)也为多模态融合研究提供了可能。
关键设计:数据采集过程中,使用了多相机系统以保证3D运动数据的准确性。数据处理过程中,采用了先进的运动跟踪和姿态估计算法,以提高数据质量。文本标注和音轨提取则采用了人工和自动相结合的方式,以保证标注的准确性和效率。具体参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
Embody 3D数据集包含500小时的3D运动数据,来自439名参与者,总计超过5400万帧。数据集涵盖了单人运动、手势、移动以及多人对话、协作等多种场景,并提供人体运动跟踪、手部姿态、身体形状、文本标注和独立音轨等多模态信息。具体的性能数据和对比基线在摘要中未提及,属于未知信息。
🎯 应用场景
Embody 3D数据集可广泛应用于3D人体建模、动画生成、虚拟现实/增强现实、人机交互、行为理解、社交机器人等领域。该数据集能够促进相关算法的开发和性能提升,推动这些技术在游戏、娱乐、教育、医疗等行业的应用。
📄 摘要(原文)
The Codec Avatars Lab at Meta introduces Embody 3D, a multimodal dataset of 500 individual hours of 3D motion data from 439 participants collected in a multi-camera collection stage, amounting to over 54 million frames of tracked 3D motion. The dataset features a wide range of single-person motion data, including prompted motions, hand gestures, and locomotion; as well as multi-person behavioral and conversational data like discussions, conversations in different emotional states, collaborative activities, and co-living scenarios in an apartment-like space. We provide tracked human motion including hand tracking and body shape, text annotations, and a separate audio track for each participant.