AssemblyHands-X: Modeling 3D Hand-Body Coordination for Understanding Bimanual Human Activities

📄 arXiv: 2509.23888v1 📥 PDF

作者: Tatsuro Banno, Takehiko Ohkawa, Ruicong Liu, Ryosuke Furuta, Yoichi Sato

分类: cs.CV

发布日期: 2025-09-28


💡 一句话要点

AssemblyHands-X:提出首个无标记3D手-身协同动作识别基准数据集

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D动作识别 手-身协同 无标记数据集 SMPL-X模型 多视角视频

📋 核心要点

  1. 现有3D活动数据集通常只标注手部或身体姿势,缺乏同时标注手和身体运动学信息的基准数据集。
  2. 提出AssemblyHands-X数据集,通过多视角视频结合SMPL-X模型,实现无标记环境下手部和上半身的3D姿势标注。
  3. 实验表明,基于姿势的动作识别优于直接使用视频,且联合建模手部和身体姿势能进一步提升识别精度。

📝 摘要(中文)

本文提出了AssemblyHands-X,这是首个用于双手动作用的无标记3D手-身基准数据集,旨在研究手-身协同在动作识别中的影响。由于缺乏合适的包含手和身体运动学级别标注(例如3D姿势)的数据集,这种协同作用在活动理解中的影响尚未得到系统评估。为了解决这个问题,我们构建了一个从同步多视角视频中进行3D姿势标注的流程,该流程结合了多视角三角测量和SMPL-X网格拟合,从而实现了手和上半身的可靠3D注册。我们验证了不同的输入表示(例如,视频、手部姿势、身体姿势或手-身姿势)在基于图卷积或时空注意力的最新动作识别模型上的表现。大量的实验表明,基于姿势的动作推断比视频基线更有效和准确。此外,联合建模手部和身体线索比单独使用手部或上半身更能提高动作识别的准确性,突出了建模相互依赖的手-身动态对于全面理解双手动作用的重要性。

🔬 方法详解

问题定义:现有3D动作识别数据集要么只关注手部姿势,要么只关注身体姿势,缺乏同时包含手部和身体姿势信息的benchmark。同时,基于marker的动作捕捉虽然可以提供全身姿势,但marker会引入视觉伪影,限制模型在自然、无marker视频上的泛化能力。因此,如何构建一个无marker、高质量的3D手-身协同动作识别数据集,并有效利用手-身协同信息进行动作识别是一个挑战。

核心思路:论文的核心思路是构建一个高质量的无marker 3D手-身协同动作识别数据集,并通过实验验证手-身协同信息对于动作识别的重要性。具体来说,首先通过多视角视频进行3D姿势标注,然后利用SMPL-X模型拟合手部和上半身,从而得到可靠的3D姿势信息。最后,通过对比不同输入表示(视频、手部姿势、身体姿势、手-身姿势)在动作识别模型上的表现,验证手-身协同信息的有效性。

技术框架:整体流程包括数据采集、3D姿势标注和动作识别模型评估三个主要阶段。数据采集阶段使用同步多视角视频记录双手动作用;3D姿势标注阶段,首先进行多视角三角测量,然后利用SMPL-X模型拟合手部和上半身,得到3D姿势信息;动作识别模型评估阶段,将不同的输入表示输入到基于图卷积或时空注意力的动作识别模型中,评估其性能。

关键创新:最重要的技术创新点在于构建了首个无marker的3D手-身协同动作识别benchmark数据集AssemblyHands-X。与现有数据集相比,AssemblyHands-X同时提供了手部和身体的3D姿势信息,并且避免了marker带来的视觉伪影。

关键设计:在3D姿势标注阶段,采用了多视角三角测量和SMPL-X模型拟合相结合的方法,以提高姿势估计的准确性和鲁棒性。在动作识别模型评估阶段,选择了基于图卷积和时空注意力的模型,以充分利用手-身协同信息。具体参数设置和损失函数等细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于姿势的动作识别方法比直接使用视频作为输入的方法更有效和准确。更重要的是,联合建模手部和身体的姿势信息,相比于单独使用手部或身体姿势,能够显著提高动作识别的准确率,验证了手-身协同信息在动作识别中的重要性。具体提升幅度未知,摘要中未给出具体数值。

🎯 应用场景

该研究成果可应用于人机交互、机器人辅助、虚拟现实等领域。通过理解人类手部和身体的协同运动,可以使机器人更好地理解人类意图,从而实现更自然、更高效的人机交互。此外,该数据集也可用于训练更鲁棒的动作识别模型,提高其在复杂环境下的识别性能。

📄 摘要(原文)

Bimanual human activities inherently involve coordinated movements of both hands and body. However, the impact of this coordination in activity understanding has not been systematically evaluated due to the lack of suitable datasets. Such evaluation demands kinematic-level annotations (e.g., 3D pose) for the hands and body, yet existing 3D activity datasets typically annotate either hand or body pose. Another line of work employs marker-based motion capture to provide full-body pose, but the physical markers introduce visual artifacts, thereby limiting models' generalization to natural, markerless videos. To address these limitations, we present AssemblyHands-X, the first markerless 3D hand-body benchmark for bimanual activities, designed to study the effect of hand-body coordination for action recognition. We begin by constructing a pipeline for 3D pose annotation from synchronized multi-view videos. Our approach combines multi-view triangulation with SMPL-X mesh fitting, yielding reliable 3D registration of hands and upper body. We then validate different input representations (e.g., video, hand pose, body pose, or hand-body pose) across recent action recognition models based on graph convolution or spatio-temporal attention. Our extensive experiments show that pose-based action inference is more efficient and accurate than video baselines. Moreover, joint modeling of hand and body cues improves action recognition over using hands or upper body alone, highlighting the importance of modeling interdependent hand-body dynamics for a holistic understanding of bimanual activities.