3D Hand Pose Estimation in Everyday Egocentric Images

📄 arXiv: 2312.06583v2 📥 PDF

作者: Aditya Prakash, Ruisen Tu, Matthew Chang, Saurabh Gupta

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2023-12-11 (更新: 2024-09-23)

备注: ECCV 2024, Project page: https://ap229997.github.io/projects/hands/


💡 一句话要点

WildHands:针对日常第一视角图像的3D手部姿态估计系统

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D手部姿态估计 第一视角图像 深度学习 人机交互 零样本学习

📋 核心要点

  1. 现有3D手部姿态估计方法在日常第一视角图像中面临视觉信号差、透视畸变和缺乏真实场景标注等挑战。
  2. 论文通过研究裁剪输入、相机信息、辅助监督和数据规模等因素,提出了更有效的3D手部姿态估计方法。
  3. 提出的WildHands系统在多个数据集上实现了显著的性能提升,并在系统级比较中表现出色,同时降低了模型复杂度和数据需求。

📝 摘要(中文)

在日常第一视角图像中进行3D手部姿态估计极具挑战,原因包括:视觉信号差(与物体的交互遮挡、低分辨率和运动模糊)、大的透视畸变(手靠近相机)以及缺乏受控环境之外的3D标注。现有方法通常使用手部裁剪作为输入,以关注细粒度的视觉信息来处理较差的视觉信号,但透视畸变和缺乏真实场景3D标注带来的挑战尚未得到系统研究。本文着重于此,并探讨了不同实践的影响,例如:裁剪作为输入、结合相机信息、辅助监督、扩大数据集。我们提供了适用于卷积和Transformer模型的见解,从而带来更好的性能。基于这些发现,我们提出了WildHands,一个用于日常第一视角图像中3D手部姿态估计的系统。在4个不同的数据集(H2O、AssemblyHands、Epic-Kitchens、Ego-Exo4D)上的零样本评估表明了我们方法在2D和3D指标上的有效性,超越了以往的方法7.4% - 66%。在系统级比较中,WildHands在ARCTIC第一视角分割上实现了最佳的3D手部姿态估计,在所有指标上优于FrankMocap,并在6个指标中的3个上优于HaMeR,同时模型大小缩小了10倍,训练数据减少了5倍。

🔬 方法详解

问题定义:论文旨在解决日常第一视角图像中3D手部姿态估计的问题。现有方法主要依赖手部裁剪,忽略了透视畸变和缺乏真实场景标注带来的挑战,导致泛化能力不足。

核心思路:论文的核心思路是通过系统性地研究不同因素(如裁剪输入、相机信息、辅助监督和数据规模)对3D手部姿态估计的影响,从而找到更有效的解决方案。通过结合相机信息来缓解透视畸变,并利用辅助监督和扩大数据集来提升模型的泛化能力。

技术框架:WildHands系统的整体架构基于深度学习模型,具体模型结构未知,但可以推断包含以下模块:图像输入模块(处理原始图像或手部裁剪图像)、特征提取模块(使用卷积或Transformer提取视觉特征)、相机信息融合模块(将相机参数融入特征表示)、3D姿态估计模块(预测手部关键点的3D坐标)。训练过程可能包含辅助监督分支,以提升模型的学习效率。

关键创新:论文的关键创新在于系统性地研究了影响3D手部姿态估计性能的多个因素,并提出了相应的改进措施。通过结合相机信息和辅助监督,有效地缓解了透视畸变和数据稀缺的问题。此外,WildHands系统在多个数据集上实现了显著的性能提升,证明了其有效性。

关键设计:论文中关于具体网络结构、损失函数和参数设置的细节未知。但可以推测,相机信息的融合方式可能包括将相机参数作为额外的输入特征,或者通过设计特定的网络层来建模透视投影关系。辅助监督可能采用额外的2D姿态估计任务或深度估计任务,以提供更强的监督信号。损失函数可能包括3D关键点坐标的L2损失,以及其他正则化项。

📊 实验亮点

WildHands系统在四个不同的数据集(H2O、AssemblyHands、Epic-Kitchens、Ego-Exo4D)上进行了零样本评估,在2D和3D指标上超越了以往的方法7.4% - 66%。在ARCTIC第一视角分割上实现了最佳的3D手部姿态估计,在所有指标上优于FrankMocap,并在6个指标中的3个上优于HaMeR,同时模型大小缩小了10倍,训练数据减少了5倍。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实/增强现实、机器人控制等领域。例如,在VR/AR游戏中,可以实现更自然的手势交互;在机器人控制中,可以帮助机器人理解人类的手部动作,从而更好地完成任务;在智能辅助驾驶中,可以监测驾驶员的手部姿态,及时发现疲劳驾驶等危险行为。

📄 摘要(原文)

3D hand pose estimation in everyday egocentric images is challenging for several reasons: poor visual signal (occlusion from the object of interaction, low resolution & motion blur), large perspective distortion (hands are close to the camera), and lack of 3D annotations outside of controlled settings. While existing methods often use hand crops as input to focus on fine-grained visual information to deal with poor visual signal, the challenges arising from perspective distortion and lack of 3D annotations in the wild have not been systematically studied. We focus on this gap and explore the impact of different practices, i.e. crops as input, incorporating camera information, auxiliary supervision, scaling up datasets. We provide several insights that are applicable to both convolutional and transformer models leading to better performance. Based on our findings, we also present WildHands, a system for 3D hand pose estimation in everyday egocentric images. Zero-shot evaluation on 4 diverse datasets (H2O, AssemblyHands, Epic-Kitchens, Ego-Exo4D) demonstrate the effectiveness of our approach across 2D and 3D metrics, where we beat past methods by 7.4% - 66%. In system level comparisons, WildHands achieves the best 3D hand pose on ARCTIC egocentric split, outperforms FrankMocap across all metrics and HaMeR on 3 out of 6 metrics while being 10x smaller and trained on 5x less data.