MotionDreamer: Universal Skeletal Motion Generation for 3D Rigged Shapes

📄 arXiv: 2606.01518v1 📥 PDF

作者: Ye Tao, Yuxin Yao, Kendong Liu, Dapeng Wu, Junhui Hou

分类: cs.CV, cs.GR

发布日期: 2026-06-01

备注: 18 pages, 7 figures


💡 一句话要点

MotionDreamer:提出一种通用的骨骼运动生成框架,用于3D绑定形状的动画生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 骨骼动画生成 扩散模型 3D绑定形状 结构-语义注入 类别无关 4D资产生成 运动捕捉 深度学习

📋 核心要点

  1. 现有基于模板的方法受限于特定拓扑结构,无法推广到不同的形态,而逐例优化计算成本高昂,易陷入局部最优,且对视角引起的歧义高度敏感。
  2. MotionDreamer通过结构-语义注入机制,将纹理和语义属性直接集成到骨骼关节表示中,从而将视觉动态映射到特定的关节层次结构及其功能角色。
  3. 实验结果表明,MotionDreamer在各种未见类别中,能够生成保持解剖学一致性的高保真动画,显著优于现有方法,为4D资产生成设定了新的基准。

📝 摘要(中文)

本文提出MotionDreamer,一个基于扩散模型的框架,旨在从2D视频指导中生成类别无关的骨骼动画。为了克服高质量训练数据的稀缺性,我们构建了一个大规模动态数据集,包含约20,000个不同的3D模型,每个模型都具有完整的纹理、骨骼绑定和各种全面的动画序列。为了弥合2D视觉运动线索和异构3D骨骼结构之间的运动学差距,我们提出了一种结构-语义注入机制。我们的模型将纹理和语义属性直接集成到骨骼关节表示中,从而将感知的视觉动态映射到特定的关节层次结构及其功能角色。这使得MotionDreamer能够合成高保真动画,并在各种未见类别(从现有生物物种到奇幻生物)中保持解剖学一致性。大量实验表明,我们的方法显著优于现有方法,为稳健高效的4D资产生成设定了新的技术水平。

🔬 方法详解

问题定义:论文旨在解决3D绑定形状的通用骨骼运动生成问题。现有方法主要存在两个痛点:一是基于模板的方法泛化性差,无法处理不同拓扑结构的模型;二是逐例优化方法计算成本高,容易陷入局部最优,且对视角变化敏感。

核心思路:论文的核心思路是利用扩散模型,并结合结构-语义注入机制,将2D视频中的运动信息转化为3D骨骼动画。通过将纹理和语义信息融入骨骼关节表示,弥合了2D视觉运动线索和3D骨骼结构之间的差距,从而实现类别无关的动画生成。

技术框架:MotionDreamer的整体框架是一个基于扩散模型的生成流程。首先,从2D视频中提取运动信息作为引导。然后,通过结构-语义注入模块,将纹理和语义信息编码到骨骼关节表示中。最后,利用扩散模型逐步生成3D骨骼动画。该框架包含数据准备、特征提取、结构-语义注入和扩散模型生成等主要阶段。

关键创新:论文最重要的创新点在于结构-语义注入机制。该机制能够将视觉信息(纹理)和语义信息(关节功能)有效地融入到骨骼关节表示中,从而使得模型能够理解2D运动与3D骨骼结构之间的对应关系,实现更准确的动画生成。与现有方法相比,该方法无需依赖特定模板,具有更强的泛化能力。

关键设计:在数据准备阶段,论文构建了一个包含20,000个3D模型的大规模数据集。在结构-语义注入模块中,使用了卷积神经网络提取纹理特征,并结合关节的语义信息进行编码。扩散模型采用U-Net结构,并使用噪声预测作为训练目标。损失函数包括运动损失、形状损失和对抗损失,以保证生成动画的质量和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionDreamer在多个数据集上进行了评估,实验结果表明,该方法在动画质量和解剖学一致性方面均显著优于现有方法。具体而言,与最先进的方法相比,MotionDreamer在用户研究中获得了更高的偏好评分,并且在定量指标上也有显著提升。该方法能够生成各种类别的高质量动画,包括人类、动物和奇幻生物。

🎯 应用场景

MotionDreamer具有广泛的应用前景,包括游戏开发、电影制作、虚拟现实和增强现实等领域。它可以用于快速生成各种角色的动画,降低动画制作的成本和时间。此外,该技术还可以应用于机器人控制,使机器人能够模仿人类的动作,从而实现更自然的人机交互。未来,该技术有望进一步发展,实现更复杂、更逼真的动画生成。

📄 摘要(原文)

Motion generation for rigged shapes is vital for scalable 4D asset production. However, template-based methods are limited by specific topologies and fail to generalize across diverse morphologies. Conversely, per-case optimization is computationally expensive, susceptible to local optima, and highly sensitive to viewpoint-induced ambiguities. In this paper, we present MotionDreamer, a diffusion-based framework designed for category-agnostic skeletal animation generation from 2D video guidance. To overcome the scarcity of high-quality training data, we have curated a large-scale dynamic dataset comprising approximately 20,000 diverse 3D models, each featuring complete textures, skeletal rigging, and a wide array of comprehensive animation sequences. To bridge the kinematic gap between 2D visual motion cues and heterogeneous 3D skeletal structures, we propose a structural-semantic injection mechanism. Our model integrates texture and semantic attributes directly into skeletal joint representations. This allows it to map perceived visual dynamics to specific joint hierarchies and their functional roles. This enables MotionDreamer to synthesize high-fidelity animations that maintain anatomical consistency across a vast range of unseen categories, from existing biological species to fantastical beings. Extensive experiments demonstrate that our approach significantly outperforms existing methods, setting a new state-of-the-art benchmark for robust and efficient 4D asset generation. The code will be made publicly available upon acceptance.