AnimaMimic: Imitating 3D Animation from Video Priors

📄 arXiv: 2512.14133v1 📥 PDF

作者: Tianyi Xie, Yunuo Chen, Yaowei Guo, Yin Yang, Bolei Zhou, Demetri Terzopoulos, Ying Jiang, Chenfanfu Jiang

分类: cs.GR

发布日期: 2025-12-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AnimaMimic:利用视频先验模仿3D动画,实现可控、逼真的动画生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D动画 视频扩散模型 可微渲染 物理模拟 运动先验 骨骼绑定 动画生成

📋 核心要点

  1. 现有3D动画制作流程耗时且依赖专业知识,缺乏自动化和灵活性,难以快速生成逼真动画。
  2. AnimaMimic利用视频扩散模型学习运动先验,驱动3D网格动画,实现从视频到3D动画的转换。
  3. 该方法通过可微渲染、物理模拟等技术,保证动画的真实性和可控性,并能集成到现有动画流程中。

📝 摘要(中文)

AnimaMimic 提出了一种框架,利用视频扩散模型学习的运动先验来驱动静态 3D 网格动画。创建逼真的 3D 动画通常需要耗费大量时间和专业知识,包括手动绑定、关键帧设置和复杂运动的微调。而视频扩散模型最近在 2D 领域展示了卓越的运动想象能力,可以从文本或图像提示生成动态且视觉连贯的运动。然而,它们的结果缺乏明确的 3D 结构,无法直接用于动画或模拟。AnimaMimic 从输入网格开始,合成单目动画视频,自动构建带有蒙皮权重的骨架,并通过可微渲染和基于视频的监督来细化关节参数。为了进一步提高真实感,该方法集成了一个可微模拟模块,通过基于物理的软组织动力学来细化网格变形。AnimaMimic 桥接了视频扩散的创造性和 3D 绑定动画的结构控制,生成物理上合理、时间上连贯且艺术家可编辑的运动序列,可以无缝集成到标准动画流程中。

🔬 方法详解

问题定义:现有的3D动画制作流程高度依赖人工,需要手动绑定骨骼、设置关键帧以及进行大量的微调,这导致制作周期长、成本高,并且需要专业的动画制作知识。视频扩散模型虽然在2D动画生成方面取得了显著进展,但其结果缺乏3D结构,无法直接应用于3D动画制作。

核心思路:AnimaMimic的核心思路是利用视频扩散模型学习到的运动先验知识,将其迁移到3D动画制作中。通过将静态3D网格作为输入,生成对应的动画视频,然后反过来利用这些视频信息来驱动3D网格的运动,从而实现自动化的3D动画生成。这种方法结合了视频扩散模型的创造性和3D动画的结构控制。

技术框架:AnimaMimic的整体框架包含以下几个主要模块:1) 视频生成模块:根据输入的3D网格,生成对应的单目动画视频。2) 骨骼构建模块:自动构建3D网格的骨骼结构,并赋予蒙皮权重。3) 关节参数优化模块:通过可微渲染和基于视频的监督,优化骨骼的关节参数,使得渲染出的动画与生成的视频尽可能一致。4) 物理模拟模块:利用可微的物理引擎,对网格的变形进行物理模拟,进一步提高动画的真实感。

关键创新:AnimaMimic的关键创新在于将视频扩散模型学习到的运动先验知识与3D动画制作流程相结合。通过可微渲染和物理模拟,实现了从视频到3D动画的自动转换,并且保证了动画的真实性和可控性。此外,该方法还能够自动构建3D网格的骨骼结构,大大简化了动画制作的流程。

关键设计:在视频生成模块中,使用了预训练的视频扩散模型,并针对3D动画的特点进行了微调。在关节参数优化模块中,使用了可微渲染技术,使得可以利用梯度下降法来优化关节参数。在物理模拟模块中,使用了可微的软组织动力学模型,模拟了网格的变形过程。损失函数包括视频重建损失、骨骼约束损失和物理约束损失等,用于保证动画的真实性和物理合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnimaMimic通过与现有方法进行对比实验,证明了其在动画质量和真实感方面的优势。实验结果表明,AnimaMimic生成的动画在时间连贯性、物理合理性和视觉效果方面均优于其他方法。此外,AnimaMimic还能够生成艺术家可编辑的动画序列,方便进行后续的修改和优化。

🎯 应用场景

AnimaMimic具有广泛的应用前景,可以应用于游戏开发、电影制作、虚拟现实等领域。它可以帮助动画师快速生成各种逼真的3D动画,提高工作效率,降低制作成本。此外,AnimaMimic还可以用于教育和科研领域,例如用于创建虚拟角色进行教学演示,或者用于研究生物运动的规律。

📄 摘要(原文)

Creating realistic 3D animation remains a time-consuming and expertise-dependent process, requiring manual rigging, keyframing, and fine-tuning of complex motions. Meanwhile, video diffusion models have recently demonstrated remarkable motion imagination in 2D, generating dynamic and visually coherent motion from text or image prompts. However, their results lack explicit 3D structure and cannot be directly used for animation or simulation. We present AnimaMimic, a framework that animates static 3D meshes using motion priors learned from video diffusion models. Starting from an input mesh, AnimaMimic synthesizes a monocular animation video, automatically constructs a skeleton with skinning weights, and refines joint parameters through differentiable rendering and video-based supervision. To further enhance realism, we integrate a differentiable simulation module that refines mesh deformation through physically grounded soft-tissue dynamics. Our method bridges the creativity of video diffusion and the structural control of 3D rigged animation, producing physically plausible, temporally coherent, and artist-editable motion sequences that integrate seamlessly into standard animation pipelines. Our project page is at: https://xpandora.github.io/AnimaMimic/