Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics

📄 arXiv: 2409.04033v1 📥 PDF

作者: Woojin Cho, Jihyun Lee, Minjae Yi, Minje Kim, Taeyun Woo, Donghwan Kim, Taewook Ha, Hyokeun Lee, Je-Hwan Ryu, Woontack Woo, Tae-Kyun Kim

分类: cs.CV

发布日期: 2024-09-06

备注: 14 pages except for references. It will be published at European Conference on Computer Vision(ECCV) 2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

HOGraspNet:一个包含完整抓取分类和动力学的密集手-物交互数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手-物交互 数据集 抓取分类 3D手部姿势估计 MANO模型 HALO模型

📋 核心要点

  1. 现有手-物交互数据集在数据量、交互场景变化或标注质量方面存在局限性。
  2. HOGraspNet通过捕捉完整的抓取分类,提供抓取标注和类内变化,构建更全面的数据集。
  3. 实验表明,基于HOGraspNet训练的模型在抓取分类和3D手部姿势估计任务上表现出潜力。

📝 摘要(中文)

本文提出了一个名为HOGraspNet的综合性手-物交互训练数据集。该数据集是唯一一个捕捉完整抓取分类的真实数据集,提供了抓取标注和广泛的类内变化。利用抓取分类作为原子动作,它们的空间和时间组合可以表示围绕物体的复杂手部活动。我们从YCB数据集中选择了22个刚性物体,并使用形状和大小分类选择了8个其他复合物体,确保覆盖所有手部抓取配置。该数据集包括来自99名年龄在10到74岁之间的参与者的不同手部形状、连续视频帧以及带有标注的150万RGB-Depth稀疏帧。它提供了3D手部和物体网格、3D关键点、接触图和抓取标签的标签。通过将手部参数模型(MANO)和手部隐式函数(HALO)拟合到多视角RGBD帧来获得准确的手部和物体3D网格,MoCap系统仅用于物体。HALO拟合不需要任何参数调整,从而能够扩展到数据集的大小,并具有与MANO相当的精度。我们在相关任务上评估HOGraspNet:抓取分类和3D手部姿势估计。结果显示了基于抓取类型和物体类别的性能变化,表明了我们数据集捕获的交互空间的潜在重要性。所提供的数据旨在学习通用形状先验或3D手-物交互的基础模型。我们的数据集和代码可在https://hograspnet2024.github.io/上找到。

🔬 方法详解

问题定义:现有手-物交互数据集在数据量、交互场景的多样性以及标注质量上存在不足,限制了模型学习通用手-物交互模式的能力。特别是缺乏对完整抓取分类的覆盖,使得模型难以理解和预测复杂的手部动作。

核心思路:HOGraspNet的核心思路是构建一个包含完整抓取分类的、大规模的真实手-物交互数据集。通过提供多样化的手部形状、物体类型和交互场景,以及高质量的3D网格、关键点和抓取标签,促进模型学习更鲁棒和通用的手-物交互表示。

技术框架:HOGraspNet数据集的构建流程主要包括以下几个阶段:1) 选择YCB数据集中的刚性物体和基于形状、大小分类的复合物体,以覆盖所有手部抓取配置。2) 招募不同年龄段的参与者,捕捉多样化的手部形状。3) 使用多视角RGBD相机记录连续视频帧。4) 使用MoCap系统跟踪物体运动,并使用MANO和HALO模型拟合手部和物体的3D网格。5) 对稀疏帧进行标注,包括3D手部和物体网格、3D关键点、接触图和抓取标签。

关键创新:HOGraspNet的关键创新在于:1) 它是唯一一个捕捉完整抓取分类的真实手-物交互数据集。2) 它提供了高质量的3D手部和物体网格,通过结合MoCap系统和MANO/HALO模型,实现了高精度和可扩展性。3) HALO拟合不需要参数调整,使得数据集的构建更加高效。

关键设计:在数据采集方面,选择了具有代表性的物体和多样化的参与者。在标注方面,提供了3D手部和物体网格、3D关键点、接触图和抓取标签等多层次的标注信息。在手部网格拟合方面,使用了MANO和HALO模型,其中HALO模型无需参数调整,更易于扩展到大规模数据集。

📊 实验亮点

在抓取分类和3D手部姿势估计任务上的评估结果表明,HOGraspNet数据集能够有效提升模型的性能。实验结果显示,模型在不同抓取类型和物体类别上的性能存在差异,这表明HOGraspNet数据集捕获的交互空间具有重要意义,能够促进模型学习更细粒度的手-物交互模式。

🎯 应用场景

HOGraspNet数据集可广泛应用于机器人抓取、虚拟现实、人机交互等领域。通过训练基于HOGraspNet的模型,可以提升机器人抓取的鲁棒性和泛化能力,实现更自然和高效的人机交互,并为虚拟现实应用提供更逼真的手部交互体验。

📄 摘要(原文)

Existing datasets for 3D hand-object interaction are limited either in the data cardinality, data variations in interaction scenarios, or the quality of annotations. In this work, we present a comprehensive new training dataset for hand-object interaction called HOGraspNet. It is the only real dataset that captures full grasp taxonomies, providing grasp annotation and wide intraclass variations. Using grasp taxonomies as atomic actions, their space and time combinatorial can represent complex hand activities around objects. We select 22 rigid objects from the YCB dataset and 8 other compound objects using shape and size taxonomies, ensuring coverage of all hand grasp configurations. The dataset includes diverse hand shapes from 99 participants aged 10 to 74, continuous video frames, and a 1.5M RGB-Depth of sparse frames with annotations. It offers labels for 3D hand and object meshes, 3D keypoints, contact maps, and \emph{grasp labels}. Accurate hand and object 3D meshes are obtained by fitting the hand parametric model (MANO) and the hand implicit function (HALO) to multi-view RGBD frames, with the MoCap system only for objects. Note that HALO fitting does not require any parameter tuning, enabling scalability to the dataset's size with comparable accuracy to MANO. We evaluate HOGraspNet on relevant tasks: grasp classification and 3D hand pose estimation. The result shows performance variations based on grasp type and object class, indicating the potential importance of the interaction space captured by our dataset. The provided data aims at learning universal shape priors or foundation models for 3D hand-object interaction. Our dataset and code are available at https://hograspnet2024.github.io/.