Gesture-Aware Pretraining and Token Fusion for 3D Hand Pose Estimation
作者: Rui Hong, Jana Kosecka
分类: cs.CV
发布日期: 2026-03-18
备注: 6 pages, 6 figures
💡 一句话要点
提出手势感知预训练与Token融合,提升单目图像3D手部姿态估计精度
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D手部姿态估计 手势识别 预训练 Transformer 单目图像
📋 核心要点
- 单目图像3D手部姿态估计在AR/VR和人机交互等领域至关重要,但现有方法难以有效利用手势信息。
- 论文提出手势感知的预训练方法,利用手势标签学习信息丰富的嵌入空间,为后续姿态估计提供先验知识。
- 实验表明,该方法在InterHand2.6M数据集上显著提升了单手姿态估计的精度,且具有良好的泛化性。
📝 摘要(中文)
本文针对单目RGB图像的3D手部姿态估计问题,尤其关注存在离散手势标签的场景,并证明手势语义可以作为3D姿态估计的强大归纳偏置。论文提出了一个两阶段框架:首先,利用InterHand2.6M数据集中的粗细粒度手势标签进行手势感知预训练,学习一个信息丰富的嵌入空间;然后,使用一个由手势嵌入引导的逐关节Token Transformer作为中间表示,最终回归MANO手部参数。训练过程采用分层目标函数,约束参数、关节和结构。在InterHand2.6M上的实验表明,手势感知预训练能够持续提升单手姿态估计精度,优于当前最先进的EANet基线,并且这种优势可以跨架构迁移,无需任何修改。
🔬 方法详解
问题定义:论文旨在解决单目RGB图像的3D手部姿态估计问题。现有方法在利用手势信息方面存在不足,无法有效利用手势语义作为先验知识来提升姿态估计的准确性。尤其是在存在离散手势标签的情况下,如何将手势信息融入到3D手部姿态估计模型中是一个挑战。
核心思路:论文的核心思路是利用手势语义作为一种强大的归纳偏置,通过手势感知的预训练来学习一个信息丰富的嵌入空间。这个嵌入空间能够捕捉手势的语义信息,并将其用于指导后续的3D手部姿态估计。通过这种方式,模型可以更好地理解手部的姿态和手势之间的关系,从而提高姿态估计的准确性。
技术框架:论文提出的框架包含两个主要阶段:手势感知预训练和Token融合的姿态估计。在手势感知预训练阶段,模型利用InterHand2.6M数据集中的手势标签学习手势嵌入。在姿态估计阶段,模型使用一个逐关节的Token Transformer,该Transformer由手势嵌入引导,作为中间表示,最终回归MANO手部参数。整个框架采用分层目标函数,约束参数、关节和结构。
关键创新:论文的关键创新在于提出了手势感知的预训练方法,将手势语义融入到3D手部姿态估计模型中。与现有方法相比,该方法能够更有效地利用手势信息,从而提高姿态估计的准确性。此外,论文还提出了一个由手势嵌入引导的逐关节Token Transformer,用于融合手势信息和图像特征。
关键设计:在手势感知预训练阶段,模型使用交叉熵损失函数来训练手势分类器。在姿态估计阶段,模型使用L1损失函数来回归MANO手部参数,并使用结构约束损失函数来保证手部结构的合理性。Token Transformer的具体结构未知,但强调了手势嵌入在引导Transformer学习过程中的作用。分层目标函数的设计细节未知,但强调了对参数、关节和结构的约束。
🖼️ 关键图片
📊 实验亮点
实验结果表明,手势感知预训练能够持续提升单手姿态估计精度,优于当前最先进的EANet基线。具体提升幅度未知,但强调了该方法在InterHand2.6M数据集上的有效性,并且这种优势可以跨架构迁移,无需任何修改,表明了该方法的泛化能力。
🎯 应用场景
该研究成果可广泛应用于AR/VR、人机交互、手语识别等领域。通过提高3D手部姿态估计的准确性,可以提升虚拟现实体验的沉浸感和交互性,改善人机交互的自然性和流畅性,并为手语识别提供更可靠的输入。
📄 摘要(原文)
Estimating 3D hand pose from monocular RGB images is fundamental for applications in AR/VR, human-computer interaction, and sign language understanding. In this work we focus on a scenario where a discrete set of gesture labels is available and show that gesture semantics can serve as a powerful inductive bias for 3D pose estimation. We present a two-stage framework: gesture-aware pretraining that learns an informative embedding space using coarse and fine gesture labels from InterHand2.6M, followed by a per-joint token Transformer guided by gesture embeddings as intermediate representations for final regression of MANO hand parameters. Training is driven by a layered objective over parameters, joints, and structural constraints. Experiments on InterHand2.6M demonstrate that gesture-aware pretraining consistently improves single-hand accuracy over the state-of-the-art EANet baseline, and that the benefit transfers across architectures without any modification.