HandX: Scaling Bimanual Motion and Interaction Generation

📄 arXiv: 2603.28766v1 📥 PDF

作者: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui

分类: cs.CV

发布日期: 2026-03-30

备注: CVPR 2026. Project Page: https://handx-project.github.io. Code: https://github.com/handx-project/HandX


💡 一句话要点

HandX:提出一个用于扩展双手动捕和交互生成的基础框架。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手部动作生成 双手动捕 人机交互 扩散模型 自回归模型 大型语言模型 动作捕捉

📋 核心要点

  1. 现有全身运动模型难以捕捉精细的手部动作和双手交互的复杂性,缺乏高质量的数据集是主要瓶颈。
  2. HandX通过整合现有数据、收集新数据集,并结合大型语言模型进行可扩展的细粒度语义标注,构建统一的基础框架。
  3. 实验表明,基于HandX训练的扩散模型和自回归模型能够生成高质量的灵巧运动,并观察到模型性能随数据规模增大而提升。

📝 摘要(中文)

本文提出了HandX,一个统一的基础框架,旨在扩展双手动捕和交互生成的研究。现有的全身模型通常忽略了驱动灵巧行为、手指关节运动、接触时序和双手协调的细微线索,并且现有的资源缺乏能够捕捉细致的手指动态和协作的高保真双手序列。为了填补这一空白,我们整合并过滤了现有的数据集以保证质量,并收集了一个新的动作捕捉数据集,该数据集针对代表性不足的双手交互,并具有详细的手指动态。为了实现可扩展的标注,我们引入了一种解耦策略,该策略提取代表性的运动特征(例如,接触事件和手指弯曲),然后利用大型语言模型的推理来生成与这些特征对齐的细粒度、语义丰富的描述。基于生成的数据和注释,我们对具有多种条件模式的扩散模型和自回归模型进行了基准测试。实验表明,高质量的灵巧运动生成,并得到了我们新提出的以手为中心的指标的支持。我们进一步观察到清晰的缩放趋势:在更大、更高质量的数据集上训练的更大的模型会产生更语义连贯的双手运动。我们的数据集已发布,以支持未来的研究。

🔬 方法详解

问题定义:现有方法在生成逼真的人手运动和双手交互方面存在局限性。全身模型通常无法捕捉到手指的精细运动、准确的接触时序以及双手之间的协调。此外,高质量的双手动捕数据集稀缺,限制了相关研究的进展。

核心思路:HandX的核心思路是构建一个统一的基础框架,包括高质量的数据集、可扩展的标注方法和全面的评估指标。通过整合现有数据、收集新的双手动捕数据,并利用大型语言模型进行语义标注,HandX旨在提供更丰富、更细粒度的手部运动信息,从而提升手部运动生成模型的性能。

技术框架:HandX框架主要包含三个部分:数据收集与处理、可扩展的标注方法和模型训练与评估。首先,收集并过滤现有的手部运动数据集,并使用动作捕捉系统收集新的双手动捕数据。其次,采用解耦策略,提取运动特征(如接触事件和手指弯曲),并利用大型语言模型生成语义描述。最后,基于生成的数据和标注,训练扩散模型和自回归模型,并使用新提出的手部指标进行评估。

关键创新:HandX的关键创新在于其可扩展的标注方法。传统的手工标注成本高昂且难以扩展。HandX通过提取代表性的运动特征,并结合大型语言模型的推理能力,实现了细粒度、语义丰富的自动标注,大大降低了标注成本,并提高了标注效率。

关键设计:在数据收集方面,HandX特别关注代表性不足的双手交互场景,并使用高精度的动作捕捉系统记录手指的精细运动。在标注方面,HandX采用解耦策略,将运动特征提取和语义描述生成分开,降低了标注的难度。在模型训练方面,HandX探索了扩散模型和自回归模型,并设计了以手为中心的评估指标,以更准确地评估生成的手部运动的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于HandX训练的扩散模型和自回归模型能够生成高质量的灵巧运动。通过对比不同模型和不同数据集,作者观察到清晰的缩放趋势:更大的模型在更大、更高质量的数据集上训练,能够产生更语义连贯的双手运动。新提出的手部指标能够更准确地评估生成的手部运动的质量。

🎯 应用场景

HandX的研究成果可应用于虚拟现实、人机交互、机器人控制等领域。例如,可以用于生成更逼真的虚拟人物手部动作,提升VR/AR体验;可以用于开发更智能的机器人,使其能够执行更复杂的双手操作任务;还可以用于辅助医疗康复,通过生成特定的手部运动序列,帮助患者进行康复训练。

📄 摘要(原文)

Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.