AnimaMimic: Imitating 3D Animation from Video Priors

📄 arXiv: 2512.14133v1 📥 PDF

作者: Tianyi Xie, Yunuo Chen, Yaowei Guo, Yin Yang, Bolei Zhou, Demetri Terzopoulos, Ying Jiang, Chenfanfu Jiang

分类: cs.GR

发布日期: 2025-12-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AnimaMimic:利用视频先验模仿3D动画,实现可控、真实的动画生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D动画 视频扩散模型 可微渲染 物理模拟 运动迁移 骨骼绑定 动画生成

📋 核心要点

  1. 现有3D动画制作流程复杂,依赖手动绑定、关键帧和精细调整,耗时且需要专业技能。
  2. AnimaMimic 利用视频扩散模型学习运动先验,驱动静态3D网格动画,实现自动骨骼构建和运动参数优化。
  3. 该方法集成了可微物理模拟,增强了动画的真实感和物理合理性,并能无缝集成到现有动画流程中。

📝 摘要(中文)

AnimaMimic 框架旨在解决创建逼真3D动画耗时且依赖专业知识的问题。该框架利用视频扩散模型学习到的运动先验,驱动静态3D网格动画。AnimaMimic 首先合成单目动画视频,然后自动构建骨骼和蒙皮权重,并通过可微渲染和基于视频的监督来优化关节参数。为了进一步增强真实感,该方法集成了可微模拟模块,通过物理软组织动力学来优化网格变形。AnimaMimic 桥接了视频扩散的创造性和3D绑定动画的结构控制,生成物理上合理、时间上连贯且可由艺术家编辑的运动序列,能够无缝集成到标准动画流程中。

🔬 方法详解

问题定义:现有3D动画制作流程高度依赖人工,需要动画师手动设计骨骼绑定、设置关键帧以及进行大量的调整,这不仅耗时耗力,而且对动画师的专业技能要求很高。视频扩散模型虽然在2D动画生成方面取得了显著进展,但缺乏明确的3D结构,无法直接应用于3D动画或物理模拟。

核心思路:AnimaMimic 的核心思路是利用视频扩散模型学习到的运动先验知识,将2D视频中的运动信息迁移到3D网格模型上,从而实现3D动画的自动生成。通过可微渲染和基于视频的监督,优化3D模型的骨骼绑定和运动参数,并结合物理模拟进一步提升动画的真实感。

技术框架:AnimaMimic 的整体框架包含以下几个主要模块:1) 视频生成模块:利用视频扩散模型,根据输入的3D网格模型生成单目动画视频。2) 骨骼构建模块:自动构建3D网格模型的骨骼结构,并计算蒙皮权重。3) 运动优化模块:通过可微渲染和基于视频的监督,优化骨骼的运动参数,使渲染的动画视频与生成的视频尽可能一致。4) 物理模拟模块:利用可微物理引擎,对网格变形进行物理模拟,进一步提升动画的真实感。

关键创新:AnimaMimic 的关键创新在于将视频扩散模型与3D绑定动画相结合,利用视频扩散模型学习到的运动先验知识,驱动3D网格模型的动画生成。此外,该方法还集成了可微渲染和物理模拟,实现了端到端的优化,从而生成更加真实、可控的3D动画。

关键设计:在运动优化模块中,使用了可微渲染技术,使得可以计算渲染图像与生成视频之间的梯度,从而优化骨骼的运动参数。在物理模拟模块中,使用了可微的软组织动力学模型,可以对网格变形进行物理模拟,并计算物理模拟结果与目标视频之间的差异,从而优化网格的形状和材质参数。损失函数包括视频重建损失、骨骼约束损失和物理模拟损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnimaMimic 通过实验验证了其有效性,能够生成逼真、连贯且可控的3D动画。与传统的手动动画制作方法相比,AnimaMimic 能够显著减少动画制作的时间和成本。此外,该方法还能够生成具有物理合理性的动画,例如软组织变形等,从而提升动画的真实感。项目页面提供了详细的实验结果和视频演示。

🎯 应用场景

AnimaMimic 具有广泛的应用前景,例如游戏开发、电影制作、虚拟现实和增强现实等领域。它可以帮助动画师快速生成高质量的3D动画,降低动画制作的成本和时间。此外,该方法还可以应用于虚拟角色的自动生成和控制,以及物理模拟和机器人控制等领域。未来,AnimaMimic 有望成为3D动画制作的重要工具。

📄 摘要(原文)

Creating realistic 3D animation remains a time-consuming and expertise-dependent process, requiring manual rigging, keyframing, and fine-tuning of complex motions. Meanwhile, video diffusion models have recently demonstrated remarkable motion imagination in 2D, generating dynamic and visually coherent motion from text or image prompts. However, their results lack explicit 3D structure and cannot be directly used for animation or simulation. We present AnimaMimic, a framework that animates static 3D meshes using motion priors learned from video diffusion models. Starting from an input mesh, AnimaMimic synthesizes a monocular animation video, automatically constructs a skeleton with skinning weights, and refines joint parameters through differentiable rendering and video-based supervision. To further enhance realism, we integrate a differentiable simulation module that refines mesh deformation through physically grounded soft-tissue dynamics. Our method bridges the creativity of video diffusion and the structural control of 3D rigged animation, producing physically plausible, temporally coherent, and artist-editable motion sequences that integrate seamlessly into standard animation pipelines. Our project page is at: https://xpandora.github.io/AnimaMimic/