Disco4D: Disentangled 4D Human Generation and Animation from a Single Image

📄 arXiv: 2409.17280v1 📥 PDF

作者: Hui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu

分类: cs.CV

发布日期: 2024-09-25


💡 一句话要点

Disco4D:提出解耦的4D人体生成与动画框架,从单张图像生成逼真动态人体。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 4D人体生成 Gaussian Splatting SMPL-X模型 扩散模型 服装解耦 人体动画 单图重建

📋 核心要点

  1. 现有方法在单图4D人体生成中细节不足,服装与人体难以分离,限制了生成质量和灵活性。
  2. Disco4D通过解耦服装和人体,分别用Gaussian模型和SMPL-X模型表示,提升细节并实现灵活控制。
  3. 实验表明,Disco4D在4D人体生成和动画任务上表现优异,能够生成具有生动动态的逼真人体。

📝 摘要(中文)

本文提出了一种新颖的Gaussian Splatting框架,名为Disco4D,用于从单张图像生成和动画4D人体。与现有方法不同,Disco4D将服装(使用Gaussian模型表示)与人体(使用SMPL-X模型表示)进行了解耦,从而显著增强了生成细节和灵活性。该方法具有以下技术创新:1) Disco4D学习有效地将服装Gaussians拟合到SMPL-X Gaussians上。2) 它采用扩散模型来增强3D生成过程,例如,对输入图像中不可见的遮挡部分进行建模。3) 它为每个服装Gaussian学习一个身份编码,以方便服装资产的分离和提取。此外,Disco4D自然地支持具有生动动态的4D人体动画。大量实验证明了Disco4D在4D人体生成和动画任务上的优越性。

🔬 方法详解

问题定义:现有方法在从单张图像生成4D人体时,难以兼顾细节和灵活性。服装与人体通常被视为一个整体,导致服装细节不足,且难以对服装进行单独编辑和动画控制。此外,遮挡区域的建模也是一个挑战。

核心思路:Disco4D的核心思路是将服装与人体解耦。人体使用SMPL-X模型进行参数化表示,服装则使用Gaussian Splatting进行建模。通过这种解耦,可以分别对服装和人体进行优化和控制,从而提高生成质量和灵活性。同时,利用扩散模型来填充遮挡区域,增强生成效果。

技术框架:Disco4D的整体框架包括以下几个主要模块:1) SMPL-X人体建模:使用SMPL-X模型对人体进行参数化表示。2) 服装Gaussian Splatting:使用Gaussian Splatting对服装进行建模,并学习将服装Gaussians拟合到SMPL-X Gaussians上。3) 扩散模型增强:使用扩散模型来增强3D生成过程,特别是对遮挡区域进行建模。4) 身份编码学习:为每个服装Gaussian学习一个身份编码,以方便服装资产的分离和提取。5) 4D动画:基于学习到的模型,实现具有生动动态的4D人体动画。

关键创新:Disco4D的关键创新在于服装与人体的解耦表示。通过将服装表示为Gaussian Splatting,可以更好地捕捉服装的细节和形状。同时,通过学习服装Gaussians与SMPL-X Gaussians之间的对应关系,可以实现服装与人体的自然融合。此外,使用扩散模型来增强生成过程,可以有效地处理遮挡区域。

关键设计:在服装Gaussian Splatting中,采用了自适应密度控制策略,以确保服装Gaussians能够覆盖服装的表面。在扩散模型增强中,使用了条件扩散模型,以SMPL-X模型作为条件,引导扩散过程生成更逼真的人体。在身份编码学习中,使用了对比学习损失,以确保不同服装的身份编码具有区分性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Disco4D在4D人体生成和动画任务上显著优于现有方法。在生成质量方面,Disco4D能够生成更逼真的服装细节和更自然的动态效果。在灵活性方面,Disco4D可以实现服装的单独编辑和动画控制。定量指标和视觉效果均表明了Disco4D的优越性。

🎯 应用场景

Disco4D具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建逼真的虚拟角色,实现服装的个性化定制和动画控制,以及生成各种动态人体场景。该技术还可以应用于电商领域,实现服装的虚拟试穿和展示。

📄 摘要(原文)

We present \textbf{Disco4D}, a novel Gaussian Splatting framework for 4D human generation and animation from a single image. Different from existing methods, Disco4D distinctively disentangles clothings (with Gaussian models) from the human body (with SMPL-X model), significantly enhancing the generation details and flexibility. It has the following technical innovations. \textbf{1)} Disco4D learns to efficiently fit the clothing Gaussians over the SMPL-X Gaussians. \textbf{2)} It adopts diffusion models to enhance the 3D generation process, \textit{e.g.}, modeling occluded parts not visible in the input image. \textbf{3)} It learns an identity encoding for each clothing Gaussian to facilitate the separation and extraction of clothing assets. Furthermore, Disco4D naturally supports 4D human animation with vivid dynamics. Extensive experiments demonstrate the superiority of Disco4D on 4D human generation and animation tasks. Our visualizations can be found in \url{https://disco-4d.github.io/}.