Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking

📄 arXiv: 2406.09598v1 📥 PDF

作者: Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Fan Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan

分类: cs.CV

发布日期: 2024-06-13

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

HOT3D:用于3D手部和物体跟踪的以自我为中心的视觉数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D手部跟踪 物体跟踪 以自我为中心视觉 数据集 人机交互 运动捕捉 多模态数据

📋 核心要点

  1. 现有以自我为中心的手部和物体交互数据集规模有限,缺乏多样化的场景和高质量的3D标注,阻碍了相关算法的开发和评估。
  2. HOT3D数据集通过多视角RGB/单色图像、多模态信号以及精确的3D姿势和模型标注,为研究者提供了一个全面且高质量的资源。
  3. 该数据集包含厨房、办公室和客厅等真实场景,并使用Meta的AR/VR设备进行记录,旨在推动以自我为中心的手-物体交互研究。

📝 摘要(中文)

本文介绍HOT3D,一个公开可用的以自我为中心的3D手部和物体跟踪数据集。该数据集包含超过833分钟(超过370万张图像)的多视角RGB/单色图像流,展示了19名受试者与33个不同的刚性物体交互,以及眼动追踪或场景点云等多模态信号。此外,还提供了全面的ground truth标注,包括物体、手和相机的3D姿势,以及手和物体的3D模型。除了简单的拿起/观察/放下动作外,HOT3D还包含类似于厨房、办公室和客厅环境中典型动作的场景。该数据集由Meta的两款头戴设备记录:Project Aria(轻量级AR/AI眼镜的研究原型)和Quest 3(已售出数百万台的量产VR头显)。Ground truth姿势由专业的运动捕捉系统使用附着在手和物体上的小型光学标记获得。手部标注以UmeTrack和MANO格式提供,物体由内部扫描仪获得的具有PBR材质的3D网格表示。我们旨在通过公开HOT3D数据集并在ECCV 2024上共同组织关于该数据集的公开挑战来加速以自我为中心的手-物体交互研究。该数据集可以从项目网站下载:https://facebookresearch.github.com/hot3d/。

🔬 方法详解

问题定义:现有的以自我为中心的手部和物体交互数据集通常规模较小,场景单一,标注精度有限,难以满足复杂场景下3D手部和物体跟踪算法的训练和评估需求。尤其是在遮挡、光照变化等挑战性条件下,现有方法的鲁棒性和准确性仍有待提高。

核心思路:HOT3D数据集的核心思路是提供一个大规模、多样化、高质量的以自我为中心的手部和物体交互数据集,包含多视角图像、多模态传感器数据以及精确的3D标注,从而促进相关算法的研发和性能提升。通过模拟真实场景和使用先进的运动捕捉技术,确保数据的真实性和准确性。

技术框架:HOT3D数据集的构建流程主要包括以下几个阶段:1) 数据采集:使用Meta的Project Aria和Quest 3头显,从多个视角记录19名受试者与33个不同物体的交互过程。2) 运动捕捉:使用专业的运动捕捉系统,通过光学标记获取手和物体的精确3D姿势。3) 数据标注:将手部姿势标注为UmeTrack和MANO格式,物体表示为具有PBR材质的3D网格。4) 数据集发布:将采集到的图像、传感器数据和3D标注整理成统一的格式,并公开发布。

关键创新:HOT3D数据集的关键创新在于其规模、多样性和标注质量。相比于以往的数据集,HOT3D包含更多的数据量、更丰富的场景和更精确的3D标注。此外,该数据集还提供了多模态传感器数据,如眼动追踪和场景点云,为研究者提供了更多的信息来源。

关键设计:HOT3D数据集的关键设计包括:1) 使用Meta的AR/VR设备进行数据采集,模拟真实的以自我为中心视角。2) 使用专业的运动捕捉系统进行3D姿势标注,确保标注的准确性。3) 提供多种数据格式,如UmeTrack和MANO,方便研究者使用不同的手部模型。4) 包含厨房、办公室和客厅等真实场景,增加数据集的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HOT3D数据集包含超过833分钟的视频数据,涵盖19名受试者与33个物体的交互。数据集提供了精确的3D手部和物体姿势标注,以及多模态传感器数据。通过在ECCV 2024上组织公开挑战,HOT3D旨在促进以自我为中心的手-物体交互研究,并推动相关算法的性能提升。

🎯 应用场景

HOT3D数据集可广泛应用于AR/VR、机器人、人机交互等领域。例如,可以用于训练和评估AR/VR环境中的手部和物体跟踪算法,提高用户在虚拟环境中的交互体验。在机器人领域,可以用于训练机器人理解和执行复杂的抓取和操作任务。在人机交互领域,可以用于开发基于手势的自然用户界面。

📄 摘要(原文)

We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (more than 3.7M images) of multi-view RGB/monochrome image streams showing 19 subjects interacting with 33 diverse rigid objects, multi-modal signals such as eye gaze or scene point clouds, as well as comprehensive ground truth annotations including 3D poses of objects, hands, and cameras, and 3D models of hands and objects. In addition to simple pick-up/observe/put-down actions, HOT3D contains scenarios resembling typical actions in a kitchen, office, and living room environment. The dataset is recorded by two head-mounted devices from Meta: Project Aria, a research prototype of light-weight AR/AI glasses, and Quest 3, a production VR headset sold in millions of units. Ground-truth poses were obtained by a professional motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. We aim to accelerate research on egocentric hand-object interaction by making the HOT3D dataset publicly available and by co-organizing public challenges on the dataset at ECCV 2024. The dataset can be downloaded from the project website: https://facebookresearch.github.io/hot3d/.