NymeriaPlus: Enriching Nymeria Dataset with Additional Annotations and Data
作者: Daniel DeTone, Federica Bogo, Eric-Tuan Le, Duncan Frost, Julian Straub, Yawar Siddiqui, Yuting Ye, Jakob Engel, Richard Newcombe, Lingni Ma
分类: cs.CV
发布日期: 2026-03-19
💡 一句话要点
NymeriaPlus:通过增强标注和数据,扩展大规模第一人称视角活动数据集
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一人称视角 具身智能 多模态学习 人体运动捕捉 3D场景理解
📋 核心要点
- 现有第一人称视角数据集在真实场景理解和多模态融合方面存在不足,限制了具身智能等领域的研究。
- NymeriaPlus通过增加高质量的3D/2D标注、物体重建以及多种模态数据,显著提升了数据集的丰富度和可用性。
- NymeriaPlus的发布旨在弥合现有数据集的差距,促进多模态学习和具身智能等领域更深入的研究。
📝 摘要(中文)
Nymeria数据集于2024年发布,是一个大规模的真实场景人类活动数据集,它通过多个空间定位和时间同步的第一人称视角可穿戴设备捕获数据。该数据集提供了通过动作捕捉服记录的身体运动真值、设备轨迹、半稠密3D点云以及上下文叙述。本文对Nymeria进行了升级,推出了NymeriaPlus。NymeriaPlus的特点包括:(1)改进了Momentum Human Rig (MHR)和SMPL格式的人体运动;(2)室内物体和结构元素的稠密3D和2D边界框标注;(3)实例级别的3D物体重建;(4)额外的模态,例如底图记录、音频和腕带视频。通过将这些互补的模态和标注整合到一个连贯的基准中,NymeriaPlus将Nymeria增强为一个更强大的真实场景第一人称视角数据集。我们期望NymeriaPlus能够弥合现有第一人称视角资源中的关键差距,并支持更广泛的研究,包括对具身人工智能的多模态学习的独特探索。
🔬 方法详解
问题定义:现有第一人称视角数据集通常缺乏高质量的3D场景理解信息,例如精确的物体边界框、实例级别的重建以及多模态数据的同步。这限制了研究人员在具身智能、机器人导航和人机交互等领域进行更深入的研究,尤其是在需要精确环境感知和交互的场景中。
核心思路:NymeriaPlus的核心思路是在原有的Nymeria数据集的基础上,通过增加高质量的标注和多模态数据,来增强数据集的表达能力和实用性。通过提供更丰富的场景信息,例如物体边界框、实例重建和多种传感器数据,NymeriaPlus旨在促进更复杂的第一人称视角任务的研究。
技术框架:NymeriaPlus的构建主要包括以下几个阶段:1) 数据采集:使用多个同步的第一人称视角设备记录真实场景中的人类活动。2) 运动捕捉:使用动作捕捉服记录人体运动真值。3) 标注:人工标注室内物体和结构元素的3D和2D边界框。4) 重建:进行实例级别的3D物体重建。5) 多模态数据集成:整合底图记录、音频和腕带视频等额外模态数据。
关键创新:NymeriaPlus的关键创新在于其综合性。它不仅提供了高质量的人体运动捕捉数据,还提供了丰富的场景理解信息,包括稠密的3D和2D边界框标注、实例级别的3D物体重建以及多种模态的数据。这种综合性的数据资源为多模态学习和具身智能等领域的研究提供了强大的支持。与现有数据集相比,NymeriaPlus在数据质量、标注密度和模态多样性方面都具有显著优势。
关键设计:NymeriaPlus的关键设计包括:1) 使用Momentum Human Rig (MHR)和SMPL格式改进人体运动表示,提供更精确的人体姿态信息。2) 采用人工标注的方式,保证3D和2D边界框标注的准确性。3) 使用先进的3D重建算法,生成高质量的实例级别3D物体模型。4) 通过精确的时间同步,确保不同模态数据之间的对齐。
🖼️ 关键图片
📊 实验亮点
NymeriaPlus通过增加高质量的3D/2D边界框标注、实例级别的3D物体重建以及多种模态数据,显著提升了数据集的质量和可用性。虽然论文中没有给出具体的性能数据,但其在数据丰富度和标注质量上的提升,预计将显著改善相关任务的性能,并为多模态学习和具身智能等领域的研究提供更强大的支持。
🎯 应用场景
NymeriaPlus数据集可广泛应用于具身智能、机器人导航、人机交互、虚拟现实/增强现实等领域。例如,可以用于训练机器人理解人类活动并与之协作,也可以用于开发更自然的人机交互界面,或用于构建更逼真的虚拟现实环境。该数据集的发布将促进这些领域的研究进展,并推动相关技术的实际应用。
📄 摘要(原文)
The Nymeria Dataset, released in 2024, is a large-scale collection of in-the-wild human activities captured with multiple egocentric wearable devices that are spatially localized and temporally synchronized. It provides body-motion ground truth recorded with a motion-capture suit, device trajectories, semi-dense 3D point clouds, and in-context narrations. In this paper, we upgrade Nymeria and introduce NymeriaPlus. NymeriaPlus features: (1) improved human motion in Momentum Human Rig (MHR) and SMPL formats; (2) dense 3D and 2D bounding box annotations for indoor objects and structural elements; (3) instance-level 3D object reconstructions; and (4) additional modalities e.g., basemap recordings, audio, and wristband videos. By consolidating these complementary modalities and annotations into a single, coherent benchmark, NymeriaPlus strengthens Nymeria into a more powerful in-the-wild egocentric dataset. We expect NymeriaPlus to bridge a key gap in existing egocentric resources and to support a broader range of research, including unique explorations of multimodal learning for embodied AI.