FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion

📄 arXiv: 2601.03959v1 📥 PDF

作者: Enes Duran, Nikos Athanasiou, Muhammed Kocabas, Michael J. Black, Omid Taheri

分类: cs.CV

发布日期: 2026-01-07


💡 一句话要点

FUSION:提出基于扩散模型的全身统一运动先验,用于生成身体和手部动作

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 全身运动生成 扩散模型 手部运动 运动先验 人机交互

📋 核心要点

  1. 现有方法缺乏对全身(包含手部)运动的建模能力,或仅限于特定任务和受限场景。
  2. FUSION通过扩散模型联合建模身体和手部运动,并利用统一的数据集进行训练。
  3. 实验表明,FUSION在运动自然度和关键点跟踪方面优于现有方法,并能应用于交互运动生成。

📝 摘要(中文)

本文提出了一种基于扩散模型的全身统一运动先验FUSION,用于联合建模身体和手部运动。现有的人体运动合成方法要么忽略手部运动,要么仅在高度约束的设置下为狭窄范围的任务生成全身运动。为了解决缺乏大规模、多样化的全身运动数据集的问题,本文整理并统一了现有的手部运动数据集和大规模身体运动数据,生成包含手部和身体的全身序列。实验表明,FUSION在HumanML3D数据集的关键点跟踪任务上优于最先进的骨骼控制模型,并实现了卓越的运动自然度。此外,FUSION还可用于生成交互过程中包含手指的详细全身运动,以及利用LLM将自然语言提示转换为可操作的运动约束,从而生成自交互运动。

🔬 方法详解

问题定义:现有的人体运动生成方法要么忽略手部动作,要么只能在受限场景下生成全身运动。缺乏大规模、多样化的全身运动数据集是主要瓶颈,现有数据集要么只包含身体运动,要么只包含手部运动,难以联合建模。

核心思路:本文的核心思路是利用扩散模型强大的生成能力,学习一个能够同时生成身体和手部运动的统一运动先验。通过整合现有的身体和手部运动数据集,构建一个包含完整全身运动的数据集,从而训练扩散模型。

技术框架:FUSION的整体框架是一个基于扩散模型的生成模型。首先,将身体和手部运动表示为姿态序列。然后,利用扩散过程逐步向姿态序列添加噪声,直到完全变为噪声。接着,训练一个神经网络来学习逆扩散过程,即从噪声中逐步恢复出原始的姿态序列。在生成阶段,从随机噪声开始,通过逆扩散过程逐步生成全身运动。

关键创新:FUSION的关键创新在于提出了一个能够同时建模身体和手部运动的统一运动先验。与现有方法相比,FUSION能够生成更自然、更逼真的全身运动,并且能够应用于更广泛的场景,例如交互运动生成和自交互运动生成。

关键设计:FUSION使用了一种基于姿态的运动表示方法,将身体和手部运动表示为一系列的3D关节位置。扩散模型采用U-Net结构,并使用Transformer进行时间建模。损失函数包括L1损失和对抗损失,以提高生成运动的自然度。在应用方面,通过优化扩散模型的潜在空间,实现对特定任务的运动生成控制。

📊 实验亮点

FUSION在HumanML3D数据集的关键点跟踪任务上超越了最先进的骨骼控制模型,并且在运动自然度方面表现出色。此外,FUSION还成功应用于交互运动生成和自交互运动生成,展示了其在复杂场景下的应用潜力。实验结果表明,FUSION能够生成具有精细手部动作和协调全身运动的逼真人体运动。

🎯 应用场景

FUSION具有广泛的应用前景,例如虚拟现实、游戏、机器人控制和动画制作。它可以用于生成逼真的人体运动,从而提高用户体验和交互性。此外,FUSION还可以用于生成特定任务的运动,例如机器人操作和人机协作。

📄 摘要(原文)

Hands are central to interacting with our surroundings and conveying gestures, making their inclusion essential for full-body motion synthesis. Despite this, existing human motion synthesis methods fall short: some ignore hand motions entirely, while others generate full-body motions only for narrowly scoped tasks under highly constrained settings. A key obstacle is the lack of large-scale datasets that jointly capture diverse full-body motion with detailed hand articulation. While some datasets capture both, they are limited in scale and diversity. Conversely, large-scale datasets typically focus either on body motion without hands or on hand motions without the body. To overcome this, we curate and unify existing hand motion datasets with large-scale body motion data to generate full-body sequences that capture both hand and body. We then propose the first diffusion-based unconditional full-body motion prior, FUSION, which jointly models body and hand motion. Despite using a pose-based motion representation, FUSION surpasses state-of-the-art skeletal control models on the Keypoint Tracking task in the HumanML3D dataset and achieves superior motion naturalness. Beyond standard benchmarks, we demonstrate that FUSION can go beyond typical uses of motion priors through two applications: (1) generating detailed full-body motion including fingers during interaction given the motion of an object, and (2) generating Self-Interaction motions using an LLM to transform natural language cues into actionable motion constraints. For these applications, we develop an optimization pipeline that refines the latent space of our diffusion model to generate task-specific motions. Experiments on these tasks highlight precise control over hand motion while maintaining plausible full-body coordination. The code will be public.