Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos

📄 arXiv: 2312.15719v2 📥 PDF

作者: Zhifan Zhu, Dima Damen

分类: cs.CV

发布日期: 2023-12-25 (更新: 2024-04-07)

备注: webpage: https://zhifanzhu.github.io/getagrip


💡 一句话要点

提出HO-SGR任务,重建第一人称视频中手-物稳定抓取帧,并构建EPIC-Grasps数据集。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手-物交互 稳定抓取 第一人称视频 三维重建 数据集构建

📋 核心要点

  1. 现有方法缺乏对第一人称视角下,手-物交互中稳定抓取状态的精确重建能力,难以准确判断何时手部真正稳定地握持物体。
  2. 论文核心思想是利用稳定抓取期间手与物体接触区域的稳定性,以及物体运动的低自由度特性,联合优化抓取过程中的所有帧。
  3. 实验结果表明,该方法在重建稳定抓取方面,能够显著提高手与物体接触区域的稳定性,优于现有方法,并在EPIC-Grasps数据集上进行了验证。

📝 摘要(中文)

本文提出了手-物稳定抓取重建(HO-SGR)任务,旨在重建手稳定握持物体的帧。首先,基于手与物体之间的接触面积应保持稳定的直觉,提出了稳定抓取的定义。通过分析3D ARCTIC数据集,识别出稳定抓取的持续时间,并展示了稳定抓取中的物体以单个自由度(1-DoF)移动。因此,提出了一种联合优化稳定抓取中所有帧的方法,将物体运动最小化到潜在的1-DoF。最后,通过标注2.4K个稳定抓取片段,将知识扩展到真实视频中。我们提出的EPIC-Grasps数据集包含9个类别的390个物体实例,具有来自141个环境中日常交互视频的稳定抓取。在没有3D ground truth的情况下,我们使用稳定的接触区域和2D投影掩码来评估真实场景中的HO-SGR任务。我们评估了相关方法,结果表明,我们的方法在EPIC-Grasps和ARCTIC数据集的稳定抓取子序列上,都保留了明显更高的稳定接触面积。

🔬 方法详解

问题定义:论文旨在解决第一人称视频中手-物稳定抓取的重建问题(HO-SGR)。现有方法难以准确判断手部是否稳定握持物体,缺乏对稳定抓取状态的精确建模和重建能力。这限制了对人机交互、机器人操作等场景的深入理解和应用。

核心思路:论文的核心思路是基于稳定抓取的两个关键特性:一是手与物体接触区域的稳定性,二是物体在稳定抓取期间运动的低自由度(近似1-DoF)。通过分析ARCTIC数据集,验证了这些特性,并将其作为优化目标,从而实现稳定抓取的重建。

技术框架:整体框架包含以下几个关键步骤:1) 基于接触区域稳定性定义稳定抓取;2) 分析ARCTIC数据集,验证稳定抓取期间物体运动的1-DoF特性;3) 提出联合优化方法,最小化物体运动到潜在的1-DoF,从而重建稳定抓取;4) 构建EPIC-Grasps数据集,用于在真实场景下评估HO-SGR任务。

关键创新:最重要的创新点在于提出了基于接触区域稳定性和物体运动低自由度的稳定抓取定义,并将其应用于HO-SGR任务。与现有方法相比,该方法更关注抓取的内在稳定性,而非仅仅依赖于视觉外观或运动模式。

关键设计:论文的关键设计包括:1) 使用接触区域的稳定性作为损失函数的一部分,鼓励重建结果保持稳定的接触;2) 通过最小化物体运动到1-DoF的约束,提高重建结果的物理合理性;3) 构建了大规模的EPIC-Grasps数据集,用于在真实场景下评估HO-SGR任务,并使用2D投影掩码作为评估指标。

📊 实验亮点

实验结果表明,该方法在EPIC-Grasps和ARCTIC数据集的稳定抓取子序列上,都保留了明显更高的稳定接触面积。这表明该方法能够更准确地重建稳定抓取状态,优于现有方法。论文还构建了包含390个物体实例的EPIC-Grasps数据集,为该领域的研究提供了重要资源。

🎯 应用场景

该研究成果可应用于机器人操作、人机交互、虚拟现实等领域。例如,机器人可以利用该技术识别并学习人类的稳定抓取动作,从而更安全、有效地完成任务。在人机交互中,可以用于理解用户的意图,并提供更自然的交互体验。在虚拟现实中,可以增强虚拟物体的交互真实感。

📄 摘要(原文)

We propose the task of Hand-Object Stable Grasp Reconstruction (HO-SGR), the reconstruction of frames during which the hand is stably holding the object. We first develop the stable grasp definition based on the intuition that the in-contact area between the hand and object should remain stable. By analysing the 3D ARCTIC dataset, we identify stable grasp durations and showcase that objects in stable grasps move within a single degree of freedom (1-DoF). We thereby propose a method to jointly optimise all frames within a stable grasp, minimising object motions to a latent 1-DoF. Finally, we extend the knowledge to in-the-wild videos by labelling 2.4K clips of stable grasps. Our proposed EPIC-Grasps dataset includes 390 object instances of 9 categories, featuring stable grasps from videos of daily interactions in 141 environments. Without 3D ground truth, we use stable contact areas and 2D projection masks to assess the HO-SGR task in the wild. We evaluate relevant methods and our approach preserves significantly higher stable contact area, on both EPIC-Grasps and stable grasp sub-sequences from the ARCTIC dataset.