EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

作者: Christen Millerdurai, Shaoxiang Wang, Yaxu Xie, Vladislav Golyanik, Didier Stricker, Alain Pagani

分类: cs.CV, cs.GR

发布日期: 2026-05-12

备注: 23 pages, 19 figures and 10 tables; project page: https://dfki-av.github.io/EgoForce (source code, data and demo available); SIGGRAPH 2026 Conference

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

EgoForce：利用前臂引导的相机空间3D手部姿态单目估计

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D手部姿态估计 单目视觉 自我中心视觉 深度尺度模糊 前臂引导

📋 核心要点

现有单目RGB手部姿态估计方法受深度尺度模糊限制，且难以泛化到不同头戴设备的光学配置。
EgoForce通过引入可微前臂表示稳定手部姿态，并利用臂-手Transformer统一预测手部和前臂几何形状。
实验表明，EgoForce在多个数据集上取得了SOTA结果，显著降低了相机空间MPJPE误差，且对不同相机配置具有鲁棒性。

📝 摘要（中文）

本文提出EgoForce，一个单目3D手部重建框架，旨在从用户视角（相机空间）恢复鲁棒的绝对3D手部姿态及其位置。该方法适用于鱼眼、透视和畸变广角FOV相机模型，并使用统一的网络。EgoForce结合了可微的前臂表示以稳定手部姿态，一个统一的臂-手Transformer从单个自我中心视图预测手部和前臂几何形状，从而减轻深度-尺度模糊，以及一个射线空间闭式解算器，可在各种头戴式相机模型上实现绝对3D姿态恢复。在三个自我中心基准数据集上的实验表明，EgoForce实现了最先进的3D精度，在HOT3D数据集上，相机空间MPJPE降低了高达28%，并在各种相机配置中保持了一致的性能。

🔬 方法详解

问题定义：现有的单目RGB手部姿态估计方法在自我中心视角下存在深度尺度模糊问题，难以准确恢复绝对3D手部姿态。此外，不同头戴式设备具有不同的相机配置（如鱼眼、透视等），导致模型需要针对特定设备进行大量训练，成本高昂。因此，如何设计一个能够泛化到不同相机配置，并能有效解决深度尺度模糊的单目3D手部姿态估计方法是一个关键挑战。

核心思路：EgoForce的核心思路是利用前臂作为手部姿态估计的辅助信息，通过可微的前臂表示来稳定手部姿态，并利用臂-手Transformer统一预测手部和前臂的几何形状，从而缓解深度尺度模糊。此外，该方法还引入了射线空间闭式解算器，以实现对不同相机模型的泛化能力。

技术框架：EgoForce的整体框架包括以下几个主要模块：1)图像输入：接收来自单目自我中心相机的图像。2)臂-手Transformer：使用Transformer网络同时预测手部和前臂的3D几何形状。3)可微前臂表示：将前臂表示为可微的参数化模型，用于稳定手部姿态估计。4)射线空间闭式解算器：利用射线空间几何关系，从预测的几何形状中恢复绝对3D手部姿态。

关键创新：EgoForce的关键创新在于：1)引入了可微的前臂表示，有效稳定了手部姿态估计，并缓解了深度尺度模糊。2)提出了统一的臂-手Transformer，能够同时预测手部和前臂的几何形状，从而更好地利用上下文信息。3)设计了射线空间闭式解算器，实现了对不同相机模型的泛化能力。

关键设计：EgoForce的关键设计包括：1)臂-手Transformer的网络结构，包括encoder和decoder的设计，以及attention机制的应用。2)可微前臂表示的参数化方式，例如使用B样条曲线或参数化模型来表示前臂的形状。3)射线空间闭式解算器的具体实现，包括射线与3D点的对应关系，以及优化算法的选择。4)损失函数的设计，例如使用3D关节位置误差、形状误差等作为优化目标。

🖼️ 关键图片

📊 实验亮点

EgoForce在三个自我中心基准数据集上进行了评估，实验结果表明，EgoForce在3D手部姿态估计精度方面取得了显著的提升。例如，在HOT3D数据集上，EgoForce的相机空间MPJPE降低了高达28%，优于现有的SOTA方法。此外，EgoForce在不同的相机配置下表现出一致的性能，验证了其对不同相机模型的泛化能力。

🎯 应用场景

EgoForce在增强现实(AR)、虚拟现实(VR)、远程呈现和以手为中心的操控任务中具有广泛的应用前景。该技术能够实现更自然、更精确的自我中心交互，例如在AR/VR游戏中进行手势控制，在远程呈现中进行手部动作的实时传输，以及在机器人操控中进行精确的手部姿态估计。未来，EgoForce有望推动人机交互方式的革新，并为各种应用场景带来更沉浸式、更便捷的用户体验。

📄 摘要（原文）

Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理