EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera
作者: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani
分类: cs.CV, cs.GR
发布日期: 2026-05-12
备注: 23 pages, 19 figures and 10 tables; project page: https://dfki-av.github.io/EgoForce (source code, data and demo available); SIGGRAPH 2026 Conference
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
EgoForce:利用前臂引导的相机空间3D手部姿态单目估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D手部姿态估计 单目视觉 自我中心视觉 深度尺度模糊 前臂引导
📋 核心要点
- 现有单目RGB手部姿态估计方法受深度尺度模糊限制,且难以泛化到不同头戴设备的光学配置。
- EgoForce通过引入可微前臂表示稳定手部姿态,并利用臂-手Transformer统一预测手部和前臂几何形状。
- 实验表明,EgoForce在多个数据集上取得了SOTA结果,显著降低了相机空间MPJPE误差,且对不同相机配置具有鲁棒性。
📝 摘要(中文)
本文提出EgoForce,一个单目3D手部重建框架,旨在从用户视角(相机空间)恢复鲁棒的绝对3D手部姿态及其位置。该方法适用于鱼眼、透视和畸变广角FOV相机模型,并使用统一的网络。EgoForce结合了可微的前臂表示以稳定手部姿态,一个统一的臂-手Transformer从单个自我中心视图预测手部和前臂几何形状,从而减轻深度-尺度模糊,以及一个射线空间闭式解算器,可在各种头戴式相机模型上实现绝对3D姿态恢复。在三个自我中心基准数据集上的实验表明,EgoForce实现了最先进的3D精度,在HOT3D数据集上,相机空间MPJPE降低了高达28%,并在各种相机配置中保持了一致的性能。
🔬 方法详解
问题定义:现有的单目RGB手部姿态估计方法在自我中心视角下存在深度尺度模糊问题,难以准确恢复绝对3D手部姿态。此外,不同头戴式设备具有不同的相机配置(如鱼眼、透视等),导致模型需要针对特定设备进行大量训练,成本高昂。因此,如何设计一个能够泛化到不同相机配置,并能有效解决深度尺度模糊的单目3D手部姿态估计方法是一个关键挑战。
核心思路:EgoForce的核心思路是利用前臂作为手部姿态估计的辅助信息,通过可微的前臂表示来稳定手部姿态,并利用臂-手Transformer统一预测手部和前臂的几何形状,从而缓解深度尺度模糊。此外,该方法还引入了射线空间闭式解算器,以实现对不同相机模型的泛化能力。
技术框架:EgoForce的整体框架包括以下几个主要模块:1)图像输入:接收来自单目自我中心相机的图像。2)臂-手Transformer:使用Transformer网络同时预测手部和前臂的3D几何形状。3)可微前臂表示:将前臂表示为可微的参数化模型,用于稳定手部姿态估计。4)射线空间闭式解算器:利用射线空间几何关系,从预测的几何形状中恢复绝对3D手部姿态。
关键创新:EgoForce的关键创新在于:1)引入了可微的前臂表示,有效稳定了手部姿态估计,并缓解了深度尺度模糊。2)提出了统一的臂-手Transformer,能够同时预测手部和前臂的几何形状,从而更好地利用上下文信息。3)设计了射线空间闭式解算器,实现了对不同相机模型的泛化能力。
关键设计:EgoForce的关键设计包括:1)臂-手Transformer的网络结构,包括encoder和decoder的设计,以及attention机制的应用。2)可微前臂表示的参数化方式,例如使用B样条曲线或参数化模型来表示前臂的形状。3)射线空间闭式解算器的具体实现,包括射线与3D点的对应关系,以及优化算法的选择。4)损失函数的设计,例如使用3D关节位置误差、形状误差等作为优化目标。
🖼️ 关键图片
📊 实验亮点
EgoForce在三个自我中心基准数据集上进行了评估,实验结果表明,EgoForce在3D手部姿态估计精度方面取得了显著的提升。例如,在HOT3D数据集上,EgoForce的相机空间MPJPE降低了高达28%,优于现有的SOTA方法。此外,EgoForce在不同的相机配置下表现出一致的性能,验证了其对不同相机模型的泛化能力。
🎯 应用场景
EgoForce在增强现实(AR)、虚拟现实(VR)、远程呈现和以手为中心的操控任务中具有广泛的应用前景。该技术能够实现更自然、更精确的自我中心交互,例如在AR/VR游戏中进行手势控制,在远程呈现中进行手部动作的实时传输,以及在机器人操控中进行精确的手部姿态估计。未来,EgoForce有望推动人机交互方式的革新,并为各种应用场景带来更沉浸式、更便捷的用户体验。
📄 摘要(原文)
Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.