UNICA: A Unified Neural Framework for Controllable 3D Avatars

📄 arXiv: 2604.02799 📥 PDF

作者: Jiahe Zhu, Xinyao Wang, Yiyu Zhuang, Yanwen Wang, Jing Tian, Yao Yao, Hao Zhu

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

UNICA:用于可控3D化身的统一神经框架,简化角色创建流程。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D化身 神经渲染 扩散模型 动作控制 高斯溅射

📋 核心要点

  1. 传统3D化身创建流程复杂耗时,涉及外观建模、运动规划、绑定和物理模拟等多个环节。
  2. UNICA通过统一的神经框架,将动作条件扩散模型与点变换器相结合,直接从键盘输入生成可控的3D化身。
  3. 该方法无需手动物理模拟即可自然捕捉头发和服装动态,并支持长时间的自回归生成,效果显著。

📝 摘要(中文)

本文提出UNICA(UNIfied neural Controllable Avatar),一个无需骨骼的生成模型,将所有化身控制组件统一到一个神经框架中。给定类似于视频游戏控制的键盘输入,UNICA通过作用于2D位置图上的动作条件扩散模型生成3D化身几何体的下一帧。然后,一个点变换器将生成的几何体映射到3D高斯溅射,以实现高保真自由视角渲染。我们的方法自然地捕捉头发和宽松服装的动态,而无需手动设计的物理模拟,并支持超长的自回归生成。据我们所知,UNICA是第一个统一“运动规划、绑定、物理模拟和渲染”工作流程的模型。

🔬 方法详解

问题定义:传统3D化身创建流程复杂,需要多个独立的步骤,包括外观建模、运动规划、绑定和物理模拟。这些步骤通常需要专业知识和大量人工干预,且难以实现各个环节的无缝衔接。现有方法在处理复杂动态效果(如头发和宽松服装)时,往往依赖于手动设计的物理模拟,效率低下且效果不够自然。

核心思路:UNICA的核心思路是将整个3D化身创建流程统一到一个神经框架中,通过端到端的方式学习从动作输入到3D化身几何体的映射。该方法利用动作条件扩散模型生成2D位置图,然后通过点变换器将其转换为3D高斯溅射表示,从而实现高保真渲染。这种方法避免了传统流程中的中间步骤,简化了流程并提高了效率。

技术框架:UNICA的整体框架包括以下几个主要模块:1) 动作编码器:将键盘输入等动作指令编码为潜在向量。2) 动作条件扩散模型:基于动作编码,生成下一帧的2D位置图。3) 点变换器:将2D位置图转换为3D点云表示。4) 3D高斯溅射渲染器:将3D点云渲染为高保真图像。整个流程以端到端的方式进行训练,从而实现从动作输入到3D化身渲染的直接映射。

关键创新:UNICA最重要的创新在于其统一的神经框架,它将运动规划、绑定、物理模拟和渲染等多个环节整合到一个模型中。与传统方法相比,UNICA无需手动设计物理模拟,即可自然地捕捉头发和宽松服装的动态效果。此外,UNICA还支持超长的自回归生成,可以生成长时间连贯的3D化身动画。

关键设计:UNICA的关键设计包括:1) 使用动作条件扩散模型生成2D位置图,该模型能够有效地学习动作与几何体之间的映射关系。2) 使用点变换器将2D位置图转换为3D点云表示,该网络能够有效地提取几何特征。3) 使用3D高斯溅射渲染器进行高保真渲染,该方法能够生成高质量的图像。此外,UNICA还使用了对抗训练等技术来提高生成图像的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UNICA在实验中展示了其生成高质量3D化身的能力,尤其是在处理头发和服装动态方面,效果显著优于传统方法。该模型能够生成长时间连贯的动画,并且对动作输入的响应自然流畅。虽然论文中没有提供具体的量化指标,但视觉效果表明UNICA在3D化身生成方面取得了显著进展。

🎯 应用场景

UNICA在3D游戏、元宇宙和AR/VR等领域具有广泛的应用前景。它可以用于创建可控的3D角色,从而增强用户在虚拟环境中的互动体验。此外,UNICA还可以用于生成逼真的3D动画,从而提高内容创作的效率和质量。该研究的未来影响在于简化3D内容创作流程,降低技术门槛,并推动虚拟现实技术的普及。

📄 摘要(原文)

Controllable 3D human avatars have found widespread applications in 3D games, the metaverse, and AR/VR scenarios. The conventional approach to creating such a 3D avatar requires a lengthy, intricate pipeline encompassing appearance modeling, motion planning, rigging, and physical simulation. In this paper, we introduce UNICA (UNIfied neural Controllable Avatar), a skeleton-free generative model that unifies all avatar control components into a single neural framework. Given keyboard inputs akin to video game controls, UNICA generates the next frame of a 3D avatar's geometry through an action-conditioned diffusion model operating on 2D position maps. A point transformer then maps the resulting geometry to 3D Gaussian Splatting for high-fidelity free-view rendering. Our approach naturally captures hair and loose clothing dynamics without manually designed physical simulation, and supports extra-long autoregressive generation. To the best of our knowledge, UNICA is the first model to unify the workflow of "motion planning, rigging, physical simulation, and rendering". Code is released atthis https URL.