Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba

📄 arXiv: 2407.09646v2 📥 PDF

作者: Haoye Dong, Aviral Chharia, Wenbo Gou, Francisco Vicente Carrasco, Fernando De la Torre

分类: cs.CV, cs.RO

发布日期: 2024-07-12 (更新: 2024-11-26)

备注: NeurIPS 2024; Project Website: https://humansensinglab.github.io/Hamba/

期刊: NeurIPS, Vancouver, Canada, 2024, pp. 2127-2160

DOI: 10.52202/079017-0069

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Hamba,利用图引导双向扫描Mamba进行单视角3D手部重建

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D手部重建 单视角重建 图神经网络 状态空间模型 Mamba 人机交互 计算机视觉

📋 核心要点

  1. 现有基于Transformer的3D手部重建方法在建模关节间空间关系方面效率较低,导致性能瓶颈。
  2. Hamba通过图引导双向扫描Mamba,利用少量tokens高效学习关节间的空间关系,提升重建性能。
  3. 实验结果表明,Hamba在多个数据集上显著超越现有方法,并在竞赛排行榜上取得领先地位。

📝 摘要(中文)

本文提出了一种名为Hamba的图引导Mamba框架,用于解决单张RGB图像中的3D手部重建问题。现有方法依赖于基于注意力机制的Transformer,但由于关节间空间关系建模效率低下,性能受到限制。Hamba的核心思想是将Mamba的扫描过程改进为图引导的双向扫描,从而利用少量有效tokens进行3D重建,高效学习关节间的空间关系。该方法设计了图引导状态空间(GSS)块,学习关节的图结构关系和空间序列,并使用比基于注意力的方法少88.5%的tokens。此外,还集成了状态空间特征和全局特征。实验表明,Hamba在多个基准测试和真实场景中显著优于现有方法,在FreiHAND数据集上实现了5.3mm的PA-MPVPE和0.992的F@15mm。在论文被接收时,Hamba在两个3D手部重建竞赛排行榜上名列第一。

🔬 方法详解

问题定义:单视角3D手部重建面临着手部关节的复杂运动、自遮挡以及与物体的交互等挑战。现有基于注意力机制的Transformer模型虽然取得了进展,但由于对关节间空间关系的建模效率不高,导致重建精度和鲁棒性不足。

核心思路:Hamba的核心在于将Mamba的状态空间模型与图神经网络相结合,利用图结构来引导Mamba的扫描过程。通过图结构,模型可以更好地捕捉关节之间的依赖关系,从而更有效地学习手部的空间结构。同时,通过双向扫描,模型可以同时考虑局部和全局信息,提升重建的准确性。

技术框架:Hamba的整体框架包括特征提取、图引导状态空间(GSS)块和特征融合三个主要模块。首先,使用卷积神经网络提取输入图像的特征。然后,将提取的特征输入到多个GSS块中,GSS块负责学习关节的图结构关系和空间序列。最后,通过特征融合模块,将GSS块输出的状态空间特征与全局特征进行融合,得到最终的3D手部姿态和形状估计。

关键创新:Hamba的关键创新在于提出了图引导状态空间(GSS)块。GSS块将Mamba的扫描过程与图结构相结合,利用图结构来引导Mamba的扫描方向,从而更有效地学习关节之间的依赖关系。与传统的注意力机制相比,GSS块可以使用更少的tokens,从而降低计算复杂度。

关键设计:GSS块的关键设计包括图结构的构建和状态空间模型的更新。图结构基于手部骨骼的连接关系构建,每个关节对应图中的一个节点,相邻关节之间存在边。状态空间模型的更新过程受到图结构的引导,每个关节的状态更新只与其相邻关节的状态相关。此外,Hamba还设计了一个特征融合模块,用于将GSS块输出的状态空间特征与全局特征进行融合。损失函数包括3D关节位置误差和形状误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hamba在FreiHAND数据集上取得了显著的性能提升,PA-MPVPE降低至5.3mm,F@15mm达到0.992,超越了现有的SOTA方法。此外,Hamba在两个3D手部重建竞赛排行榜上均排名第一,证明了其在实际应用中的有效性。GSS块的使用使得Hamba可以使用比基于注意力的方法少88.5%的tokens,显著降低了计算复杂度。

🎯 应用场景

Hamba在人机交互、虚拟现实、增强现实、手势识别、远程医疗等领域具有广泛的应用前景。精确的3D手部重建可以为这些应用提供更自然、更准确的交互方式,例如,用户可以通过手势与虚拟环境进行交互,医生可以通过远程操作进行手术。

📄 摘要(原文)

3D Hand reconstruction from a single RGB image is challenging due to the articulated motion, self-occlusion, and interaction with objects. Existing SOTA methods employ attention-based transformers to learn the 3D hand pose and shape, yet they do not fully achieve robust and accurate performance, primarily due to inefficiently modeling spatial relations between joints. To address this problem, we propose a novel graph-guided Mamba framework, named Hamba, which bridges graph learning and state space modeling. Our core idea is to reformulate Mamba's scanning into graph-guided bidirectional scanning for 3D reconstruction using a few effective tokens. This enables us to efficiently learn the spatial relationships between joints for improving reconstruction performance. Specifically, we design a Graph-guided State Space (GSS) block that learns the graph-structured relations and spatial sequences of joints and uses 88.5% fewer tokens than attention-based methods. Additionally, we integrate the state space features and the global features using a fusion module. By utilizing the GSS block and the fusion module, Hamba effectively leverages the graph-guided state space features and jointly considers global and local features to improve performance. Experiments on several benchmarks and in-the-wild tests demonstrate that Hamba significantly outperforms existing SOTAs, achieving the PA-MPVPE of 5.3mm and F@15mm of 0.992 on FreiHAND. At the time of this paper's acceptance, Hamba holds the top position, Rank 1 in two Competition Leaderboards on 3D hand reconstruction. Project Website: https://humansensinglab.github.io/Hamba/