AniGen: Unified $S^3$ Fields for Animatable 3D Asset Generation

📄 arXiv: 2604.08746v1 📥 PDF

作者: Yi-Hua Huang, Zi-Xin Zou, Yuting He, Chirui Chang, Cheng-Feng Pu, Ziyi Yang, Yuan-Chen Guo, Yan-Pei Cao, Xiaojuan Qi

分类: cs.GR, cs.CV

发布日期: 2026-04-09

备注: 16 pages, 12 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AniGen:提出统一的S³场,用于生成可动画的3D资产

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 3D资产生成 可动画模型 骨骼绑定 S³场 流匹配

📋 核心要点

  1. 现有3D生成模型生成的资产通常是静态的,事后自动绑定方法脆弱且易产生拓扑不一致的骨架。
  2. AniGen将形状、骨架和蒙皮表示为统一的S³场,通过学习这些场直接生成可动画的3D资产。
  3. 实验表明,AniGen在骨骼绑定有效性和动画质量方面优于现有方法,并能推广到多种类别。

📝 摘要(中文)

可动画的3D资产,即配备有关节骨架和蒙皮权重的几何体,是交互式图形、具身智能体和动画制作的基础。虽然最近的3D生成模型可以从图像中合成视觉上合理的形状,但结果通常是静态的。通过事后自动绑定获得可用的骨骼绑定是脆弱的,并且经常产生与生成几何体在拓扑上不一致的骨架。我们提出了AniGen,一个统一的框架,可以直接生成以单个图像为条件的可动画3D资产。我们的关键见解是将形状、骨架和蒙皮表示为在共享空间域上定义的相互一致的S³场(形状、骨架、蒙皮)。为了实现这些场的鲁棒学习,我们引入了两项技术创新:(i)一种置信度衰减的骨架场,它显式地处理Voronoi边界处骨骼预测的几何模糊性,以及(ii)一种双重蒙皮特征场,它将蒙皮权重与特定的关节数量解耦,允许固定架构的网络预测任意复杂度的骨骼绑定。基于两阶段的流匹配管道,AniGen首先合成一个稀疏的结构支架,然后在结构化的潜在空间中生成密集的几何体和关节。大量的实验表明,AniGen在骨骼绑定的有效性和动画质量方面大大优于最先进的顺序基线,有效地推广到包括动物、人形和机械在内的各种类别的真实图像。

🔬 方法详解

问题定义:论文旨在解决从单张图像生成可动画3D资产的问题。现有方法要么生成静态3D模型,要么依赖于后处理的自动绑定技术,这些技术通常不稳定,并且生成的骨架与几何体在拓扑上不一致,导致动画效果不佳。

核心思路:核心思想是将3D资产的形状、骨架和蒙皮权重统一表示为在共享空间域上定义的三个相互一致的场,即S³场(Shape, Skeleton, Skin)。通过直接学习这些场之间的关系,可以生成具有内在一致性的可动画3D模型。

技术框架:AniGen采用两阶段的流匹配(Flow Matching)管道。第一阶段,模型合成一个稀疏的结构支架,用于表示骨骼结构。第二阶段,模型在结构化的潜在空间中生成密集的几何体和蒙皮信息,从而完成可动画3D资产的生成。

关键创新:主要创新点包括:1) 提出置信度衰减的骨架场,显式处理Voronoi边界处骨骼预测的几何模糊性,提高骨骼预测的准确性。2) 引入双重蒙皮特征场,将蒙皮权重与关节数量解耦,允许使用固定架构的网络预测任意复杂度的骨骼绑定。

关键设计:置信度衰减的骨架场通过在Voronoi边界附近降低骨骼预测的置信度来减少歧义。双重蒙皮特征场使用特征向量来表示蒙皮权重,而不是直接预测每个顶点到每个关节的权重,从而避免了对固定数量关节的依赖。损失函数的设计也至关重要,需要平衡形状、骨架和蒙皮的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AniGen在骨骼绑定的有效性和动画质量方面显著优于现有方法。具体而言,AniGen能够生成具有更高质量骨骼绑定和更自然动画效果的3D资产,并且能够有效地推广到包括动物、人形和机械在内的各种类别。与基线方法相比,AniGen在多个指标上取得了显著提升。

🎯 应用场景

该研究成果可广泛应用于游戏开发、动画制作、虚拟现实/增强现实、机器人技术等领域。它可以帮助开发者快速生成高质量的可动画3D角色和物体,降低内容创作成本,并为虚拟世界中的交互提供更逼真的体验。未来,该技术有望进一步发展,实现更自动化、更智能化的3D资产生成。

📄 摘要(原文)

Animatable 3D assets, defined as geometry equipped with an articulated skeleton and skinning weights, are fundamental to interactive graphics, embodied agents, and animation production. While recent 3D generative models can synthesize visually plausible shapes from images, the results are typically static. Obtaining usable rigs via post-hoc auto-rigging is brittle and often produces skeletons that are topologically inconsistent with the generated geometry. We present AniGen, a unified framework that directly generates animate-ready 3D assets conditioned on a single image. Our key insight is to represent shape, skeleton, and skinning as mutually consistent $S^3$ Fields (Shape, Skeleton, Skin) defined over a shared spatial domain. To enable the robust learning of these fields, we introduce two technical innovations: (i) a confidence-decaying skeleton field that explicitly handles the geometric ambiguity of bone prediction at Voronoi boundaries, and (ii) a dual skin feature field that decouples skinning weights from specific joint counts, allowing a fixed-architecture network to predict rigs of arbitrary complexity. Built upon a two-stage flow-matching pipeline, AniGen first synthesizes a sparse structural scaffold and then generates dense geometry and articulation in a structured latent space. Extensive experiments demonstrate that AniGen substantially outperforms state-of-the-art sequential baselines in rig validity and animation quality, generalizing effectively to in-the-wild images across diverse categories including animals, humanoids, and machinery. Homepage: https://yihua7.github.io/AniGen-web/