OmniHands: Towards Robust 4D Hand Mesh Recovery via A Versatile Transformer

📄 arXiv: 2405.20330v3 📥 PDF

作者: Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-05-30 (更新: 2024-10-01)

备注: An extended journal version of 4DHands, featured with versatile module that can adapt to temporal task and multi-view task. Additional detailed comparison experiments and results presentation have been added. More demo videos can be seen at our project page: https://OmniHand.github.io


💡 一句话要点

OmniHands:通过通用Transformer实现鲁棒的4D手部网格重建

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手部网格重建 4D重建 Transformer 人机交互 关系感知 时空建模 深度学习

📋 核心要点

  1. 现有方法缺乏统一方案处理不同手部图像输入,且忽略了图像中双手的位置关系。
  2. OmniHands提出关系感知双Tokenization(RAT)和4D交互推理(FIR)模块,利用相对手部位置信息。
  3. 实验表明,OmniHands在交互式手部重建方面表现优异,并在多个基准数据集上验证了有效性。

📝 摘要(中文)

本文提出OmniHands,一种通用的方法,用于从单目或多视角输入中恢复交互式手部网格及其相对运动。该方法旨在解决现有方法的两个主要局限性:缺乏处理各种手部图像输入的统一解决方案,以及忽略图像中双手的位置关系。为了克服这些挑战,我们开发了一种具有新型Tokenization和上下文特征融合策略的通用架构,能够适应各种任务。具体而言,我们提出了一种关系感知双Tokenization(RAT)方法,将位置关系信息嵌入到手部Token中。通过这种方式,我们的网络可以处理单手和双手输入,并显式地利用相对手部位置,从而促进真实场景中复杂手部交互的重建。由于这种Tokenization指示了双手的相对关系,因此它也支持更有效的特征融合。为此,我们进一步开发了一个4D交互推理(FIR)模块,以4D方式融合手部Token,并通过注意力机制将其解码为3D手部网格和相对时间运动。我们的方法在多个基准数据集上得到了验证。在真实视频和真实场景中的结果表明,我们的方法在交互式手部重建方面具有优越的性能。

🔬 方法详解

问题定义:现有方法在手部网格重建任务中,无法统一处理单手和双手交互的场景,并且忽略了双手之间的位置关系,导致在复杂交互场景下的重建效果不佳。此外,缺乏有效的时间信息建模,难以捕捉手部的动态变化。

核心思路:OmniHands的核心思路是设计一个通用的Transformer架构,通过关系感知的Tokenization方法,将双手的位置关系编码到Token中,并利用4D交互推理模块,融合时空信息,从而实现鲁棒的4D手部网格重建。

技术框架:OmniHands的整体架构包含以下几个主要模块:1)图像特征提取模块:用于提取输入图像的手部区域特征。2)关系感知双Tokenization(RAT):将提取的特征转换为包含位置关系信息的Token。3)4D交互推理(FIR):利用Transformer架构,融合手部Token的时空信息,推理出3D手部网格和相对运动。4)网格解码器:将推理得到的特征解码为最终的3D手部网格。

关键创新:OmniHands的关键创新在于:1)关系感知双Tokenization(RAT):显式地将双手的位置关系编码到Token中,使得网络能够更好地理解双手之间的交互。2)4D交互推理(FIR):通过在4D空间中融合手部Token,有效地建模了手部的时空动态变化。

关键设计:RAT模块通过计算双手之间的相对位置关系,并将其作为附加特征嵌入到Token中。FIR模块使用Transformer编码器-解码器结构,编码器用于融合时空信息,解码器用于预测3D手部网格的顶点坐标。损失函数包括3D顶点位置损失、关节角度损失和时间一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniHands在多个基准数据集上进行了验证,并在交互式手部重建任务中取得了显著的性能提升。实验结果表明,OmniHands能够有效地处理单手和双手交互场景,并在复杂场景下实现更准确的手部网格重建。项目主页提供了更多视频结果,展示了OmniHands在真实场景下的优越性能。

🎯 应用场景

OmniHands在虚拟现实、人机交互、手势识别、动作捕捉等领域具有广泛的应用前景。它可以用于创建更自然、更逼真的虚拟体验,实现更精确的手势控制,并为康复训练等医疗应用提供支持。未来,该技术有望应用于机器人控制,使机器人能够更好地理解和模仿人类的手部动作。

📄 摘要(原文)

In this paper, we introduce OmniHands, a universal approach to recovering interactive hand meshes and their relative movement from monocular or multi-view inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a universal architecture with novel tokenization and contextual feature fusion strategies, capable of adapting to a variety of tasks. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a 4D Interaction Reasoning (FIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://OmniHand.github.io.