StableHand: Quality-Aware Flow Matching for World-Space Dual-Hand Motion Estimation from Egocentric Video
作者: Huajian Zeng, Chaohua Yao, Yuantai Zhang, Jiaqi Yang, Rolandos Alexandros Potamias, Xingxing Zuo
分类: cs.CV, cs.AI
发布日期: 2026-05-18
备注: Project Page: https://huajian-zeng.github.io/projects/stablehand/
💡 一句话要点
StableHand:基于质量感知的Flow Matching实现自中心视频中世界坐标双手的运动估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 双手运动估计 自中心视频 Flow Matching 质量感知 手部遮挡
📋 核心要点
- 现有方法在估计双手运动时,未考虑每帧观测的可靠性,导致性能下降,尤其是在手部遮挡或离开视野时。
- StableHand的核心思想是将准确的世界坐标手部运动估计与每帧手部观测的质量紧密结合,利用质量感知的Flow Matching框架。
- 实验表明,StableHand在HOT3D和ARCTIC数据集上显著优于现有方法,尤其在遮挡场景下性能提升明显。
📝 摘要(中文)
本文提出StableHand,一个质量感知的Flow Matching框架,用于从自中心视频中恢复世界坐标下交互双手的4D运动。该方法旨在解决因头部运动导致手部长时间离开视野以及手部与物体交互造成的严重遮挡问题。StableHand将手部姿态估计器的输出质量分解为四个通道:双手腕部的全局平移和手指关节。通过学习到的质量网络预测这些质量信号,并将其融入Flow Matching过程,包括通道相关的正向调度、质量调整的速度目标、DiT降噪器的AdaLN调制以及质量感知的ODE初始化。该方法在HOT3D和ARCTIC数据集上取得了SOTA性能,W-MPJPE指标相比最强基线降低了20-25%,尤其在遮挡严重的ARCTIC序列上提升显著。
🔬 方法详解
问题定义:论文旨在解决从自中心视频中准确估计世界坐标系下交互双手的4D运动问题。现有方法在处理手部长时间离开视野或被物体严重遮挡的情况时,由于未考虑每帧手部观测的质量,导致估计精度显著下降。这些方法通常均匀地依赖于噪声较大的手部运动观测,而忽略了其可靠性。
核心思路:StableHand的核心思路是建立手部运动估计的准确性与每帧手部观测质量之间的紧密联系。通过学习一个质量网络来预测每帧手部观测的质量,并将这些质量信息融入到Flow Matching框架中,从而在保留高质量观测的同时,利用学习到的双手运动先验来重建不可靠的观测。
技术框架:StableHand的整体框架包括以下几个主要模块:1) 使用现成的(off-the-shelf)手部姿态估计器提取每帧的手部运动观测;2) 学习一个质量网络,将手部运动观测的质量分解为四个通道:双手腕部的全局平移和手指关节,并预测每个通道的质量信号;3) 构建一个质量感知的Flow Matching框架,该框架利用预测的质量信号来指导手部运动的生成过程。
关键创新:StableHand的关键创新在于将手部观测的质量信息显式地融入到Flow Matching框架中。具体来说,它通过以下方式实现:1) 使用通道相关的正向调度,根据不同通道的质量调整Flow Matching的进程;2) 使用质量调整的速度目标,引导Flow Matching朝着更可靠的方向进行;3) 使用AdaLN调制DiT降噪器,根据质量信息调整降噪过程;4) 使用质量感知的ODE初始化,为Flow Matching提供更好的初始状态。
关键设计:在质量网络的设计上,论文使用了卷积神经网络来提取手部运动观测的特征,并预测每个通道的质量信号。在Flow Matching框架中,论文使用了扩散模型(DiT)作为降噪器,并使用AdaLN来根据质量信息调整降噪过程。损失函数包括Flow Matching损失和质量预测损失,通过联合优化来提高手部运动估计的准确性和质量预测的可靠性。
🖼️ 关键图片
📊 实验亮点
StableHand在HOT3D和ARCTIC数据集上取得了显著的性能提升。在W-MPJPE指标上,相比最强的基线方法,StableHand降低了20-25%。尤其是在ARCTIC数据集上,由于该数据集包含大量的手部遮挡场景,StableHand的性能提升更为明显,证明了其在处理遮挡问题上的有效性。
🎯 应用场景
StableHand技术可应用于机器人策略学习,特别是需要机器人模仿人类双手操作的场景。通过准确估计人类双手的运动轨迹和姿态,可以为机器人提供有效的监督信号,从而提高机器人学习的效率和性能。此外,该技术还可应用于虚拟现实、人机交互等领域,提供更自然、更逼真的手部运动捕捉和交互体验。
📄 摘要(原文)
Recovering world space 4D motion of two interacting hands from egocentric video is a fundamental capability for supervising robot policy learning, where wrist trajectories track the end-effector and finger articulations specify the grasp pose. Two major challenges arise in this setting: hands frequently leave the camera view for extended periods due to head motion, and persistent hand-object interactions cause severe occlusions of one or both hands. Existing methods uniformly condition on noisy hand motion observations without accounting for their per-frame reliability, leading to substantial performance degradation. Our key insight is that accurate world space hand motion estimation is tightly coupled with the quality of per-frame hand observations. To this end, we decompose the quality of hand motion observations extracted from an off-the-shelf hand pose estimator into four channels: wrist global translation and finger articulations for both hands. We propose StableHand, a quality-aware flow-matching framework conditioned on these four-channel quality signals, which are predicted by a learned quality network. We naturally incorporate the quality signals into the flow-matching process through a per-channel forward schedule, a quality-adjusted velocity target, AdaLN modulation of the DiT denoiser, and a quality-aware ODE initialization. This unified generative process preserves high-quality observations while reconstructing unreliable ones using a learned bimanual motion prior. Experiments on HOT3D and ARCTIC, two egocentric benchmarks featuring long missing-hand spans and persistent hand-object occlusions, show that StableHand achieves state-of-the-art performance across all reported metrics, reducing W-MPJPE by 20-25% compared to the strongest baseline, with the largest gains on heavily occluded ARCTIC sequences.