UST-Hand: An Uncertainty-aware Spatiotemporal Point Cloud Interaction Network for 3D Self-supervised Hand Pose Estimation
作者: Tianhao Han, Haoyang Zhang, Liang Xie, Haochen Chang, Kun Gao, Yuan Cheng, Pengfei Ren, Erwei Yin
分类: cs.CV, cs.HC
发布日期: 2026-05-18
备注: Accepted by CVPR 2026
💡 一句话要点
UST-Hand:面向3D自监督手部姿态估计的不确定性感知时空点云交互网络
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 3D手部姿态估计 自监督学习 不确定性建模 条件归一化流 点云交互
📋 核心要点
- 现有自监督手部姿态估计方法易受噪声伪标签影响,且忽略了细粒度空间相关性的利用,导致模型训练不稳定。
- UST-Hand通过估计手部姿态的不确定性分布,构建概率点云特征空间,从而实现鲁棒的时空关系建模。
- 实验结果表明,UST-Hand在三个数据集上均取得了SOTA性能,MPVPE指标最高提升了37.8%。
📝 摘要(中文)
手动标注精确的3D手部姿态非常耗时且费力。现有的自监督手部姿态估计方法利用输入图像与渲染输出之间的差异,或多视角一致性约束,作为驱动力来优化网络并逐步提高姿态精度。然而,这些方法极易受到噪声伪标签的影响,并忽略了充分利用细粒度空间相关性的重要性,从而削弱了模型训练的稳定性。为了解决这些问题,我们提出了UST-Hand,一个自监督学习框架,用于估计手部姿态的不确定性分布并构建概率点云特征空间,从而实现复杂的时空关系建模。UST-Hand采用条件归一化流模型来捕获手部姿态分布并采样不同的假设,从而在噪声伪标签监督下促进鲁棒学习并增强稳定性。这些多假设被映射到统一的概率3D点云空间,用于多视角和时间特征交互,全面探索手部运动模式和细粒度空间相关性。在三个具有挑战性的数据集上的大量实验表明,UST-Hand实现了最先进的性能,在平均顶点位置误差(MPVPE)方面优于现有的自监督方法高达37.8%。
🔬 方法详解
问题定义:论文旨在解决3D自监督手部姿态估计问题。现有方法依赖伪标签和多视角一致性,但易受噪声伪标签干扰,且未能充分挖掘细粒度空间相关性,导致模型训练不稳定,精度受限。
核心思路:论文的核心思路是引入不确定性建模,利用条件归一化流学习手部姿态分布,生成多个假设,从而在噪声环境下进行更鲁棒的学习。同时,将这些假设映射到概率点云空间,进行多视角和时间特征交互,充分挖掘手部运动模式和细粒度空间相关性。
技术框架:UST-Hand框架主要包含以下几个模块:1) 手部姿态估计器:用于初步估计手部姿态。2) 条件归一化流(CNF):学习手部姿态分布,生成多个姿态假设。3) 概率点云映射:将多个姿态假设映射到统一的3D点云空间。4) 时空特征交互模块:在点云空间中进行多视角和时间特征交互,提取细粒度空间相关性。5) 损失函数:包括重建损失、一致性损失和正则化损失,用于优化网络。
关键创新:论文的关键创新在于:1) 引入不确定性建模,使用条件归一化流学习手部姿态分布,从而在噪声伪标签环境下实现更鲁棒的学习。2) 构建概率点云特征空间,用于多视角和时间特征交互,充分挖掘手部运动模式和细粒度空间相关性。
关键设计:条件归一化流采用多层神经网络结构,输入为手部姿态,输出为姿态分布的参数。概率点云映射模块将每个姿态假设转换为3D点云,并使用高斯核函数对点云进行平滑。时空特征交互模块采用图卷积网络,对点云进行特征提取和融合。损失函数中,重建损失用于约束估计的姿态与输入图像的一致性,一致性损失用于约束多视角和时间上的姿态一致性,正则化损失用于防止过拟合。
🖼️ 关键图片
📊 实验亮点
UST-Hand在三个具有挑战性的数据集上进行了评估,包括FreiHAND、RHD和STB。实验结果表明,UST-Hand在平均顶点位置误差(MPVPE)指标上显著优于现有的自监督方法,最高提升幅度达到37.8%。这表明UST-Hand在3D自监督手部姿态估计方面具有显著的优势。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、增强现实、手语识别、康复医疗等领域。通过准确估计手部姿态,可以实现更自然、更智能的人机交互方式,提升用户体验。在医疗领域,可用于辅助诊断和康复训练,例如评估患者的手部运动功能。
📄 摘要(原文)
Manually annotating accurate 3D hand poses is extremely time-consuming and labor-intensive. Existing self-supervised hand pose estimation methods leverage the discrepancy between input images and rendered outputs, or multi-view consistency constraints, as the driving force to optimize networks and progressively refine pose accuracy. However, these methods are highly susceptible to noisy pseudo-labels and overlook the importance of fully exploiting fine-grained spatial correlations, which undermines the stability of model training. To address these issues, we propose UST-Hand, a self-supervised learning framework that estimates uncertainty distribution of hand pose and constructs a probabilistic point cloud feature space, which enables the complex spatiotemporal relationship modeling. UST-Hand employs a conditional normalizing flow model to capture hand pose distributions and samples diverse hypotheses, facilitating robust learning under noisy pseudo-labels supervision with enhanced stability. These multi-hypothesis are mapped to a unified probabilistic 3D point cloud space for multi-view and temporal feature interaction, comprehensively exploring hand motion patterns and fine-grained spatial correlations. Extensive experiments on three challenging datasets demonstrate that UST-Hand achieves state-of-the-art performance, outperforming existing self-supervised methods by up to 37.8% in Mean Per Vertex Position Error (MPVPE).