Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

📄 arXiv: 2406.09905v2 📥 PDF

作者: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe

分类: cs.CV, cs.GR

发布日期: 2024-06-14 (更新: 2024-09-20)


💡 一句话要点

Nymeria:大规模多模态第一人称日常运动数据集,助力人体运动理解

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角 多模态数据 人体运动 日常活动 运动-语言 数据集 动作识别 身体跟踪

📋 核心要点

  1. 现有的人体运动数据集规模有限,缺乏真实场景下的多模态数据,难以支持复杂的人体运动理解任务。
  2. Nymeria数据集通过多设备同步采集第一人称视角下的视频、眼动追踪、IMU等数据,并提供全身运动真值和语言描述。
  3. 实验表明,该数据集能够有效评估和提升第一人称身体跟踪、运动合成和动作识别等算法的性能。

📝 摘要(中文)

本文介绍Nymeria,这是一个大规模、多样化、带有丰富标注的人体运动数据集,该数据集在真实场景中采集,并配备了多个多模态第一人称设备。数据集包含:a)全身真实运动数据;b)来自Project Aria设备的多模态第一人称数据,包括视频、眼动追踪、IMU等;c)来自额外观察者的第三人称视角。所有设备都经过精确同步,并定位在统一的3D世界坐标系中。我们设计了分层协议,用于添加人体运动的上下文语言描述,从细粒度的运动叙述到简化的原子动作和高级活动总结。据我们所知,Nymeria数据集是目前世界上最大的真实场景人体运动数据集;是首个提供同步和定位的多设备多模态第一人称数据的数据集;也是世界上最大的运动-语言数据集。它包含来自50个地点264名参与者的300小时日常活动,总行程超过399公里。语言描述包含来自6545个词汇的301.5K个句子,共计8.64M个单词。为了展示数据集的潜力,我们评估了几种最先进的第一人称身体跟踪、运动合成和动作识别算法。数据和代码已开源。

🔬 方法详解

问题定义:现有的人体运动数据集通常规模较小,数据采集环境受限,缺乏真实场景下的多样性和复杂性。此外,多模态数据的同步和对齐也是一个挑战,阻碍了相关算法的开发和评估。现有方法难以充分利用多模态信息进行人体运动的理解和预测。

核心思路:Nymeria数据集的核心思路是通过大规模、多模态的数据采集,提供一个更接近真实世界的人体运动理解平台。通过同步多个设备,包括第一人称视角设备和第三人称视角设备,以及提供详细的语言描述,为研究人员提供更丰富的信息来源。

技术框架:Nymeria数据集的构建包含以下几个主要阶段:1) 数据采集:使用Project Aria设备和第三方视角设备同步采集多模态数据,包括视频、眼动追踪、IMU和3D运动捕捉数据。2) 数据同步和定位:对所有设备进行精确同步,并将数据定位到统一的3D世界坐标系中。3) 数据标注:采用分层协议,添加人体运动的上下文语言描述,包括细粒度的运动叙述、简化的原子动作和高级活动总结。

关键创新:Nymeria数据集的关键创新在于其大规模、多模态和真实场景的特性。它是目前世界上最大的真实场景人体运动数据集,也是首个提供同步和定位的多设备多模态第一人称数据的数据集。此外,数据集还提供了详细的语言描述,为运动-语言相关的研究提供了新的机会。

关键设计:在数据采集方面,使用了Project Aria设备,该设备集成了多种传感器,能够同步采集视频、眼动追踪和IMU数据。在数据标注方面,采用了分层协议,能够提供不同粒度的语言描述。在数据同步方面,采用了精确的同步算法,保证了多模态数据的时间对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在Nymeria数据集上评估几种最先进的算法,展示了数据集的潜力。实验结果表明,该数据集能够有效提升第一人称身体跟踪、运动合成和动作识别等算法的性能。例如,在动作识别任务上,使用Nymeria数据集训练的模型取得了显著的性能提升。

🎯 应用场景

Nymeria数据集可广泛应用于人体运动分析、人机交互、虚拟现实、增强现实、机器人导航等领域。例如,可以用于开发更智能的穿戴式设备,帮助用户更好地理解和控制自己的身体运动。此外,还可以用于训练机器人,使其能够更好地理解人类的意图,并与人类进行更自然的交互。

📄 摘要(原文)

We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).