HumanCoser: Layered 3D Human Generation via Semantic-Aware Diffusion Model
作者: Yi Wang, Jian Ma, Ruizhi Shao, Qiao Feng, Yu-kun Lai, Kun Li
分类: cs.CV
发布日期: 2024-08-21
💡 一句话要点
HumanCoser:提出语义感知扩散模型,实现可重用的分层3D人体生成
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人体生成 分层服装 扩散模型 虚拟试穿 SMPL模型 隐式场变形 文本驱动生成
📋 核心要点
- 现有3D服装人体生成方法难以处理复杂服装和分层结构,限制了在虚拟试穿和编辑等领域的应用。
- 提出一种基于物理分离扩散模型的分层服装人体表示,通过双重表示解耦框架和多层融合体积渲染实现分层服装生成。
- SMPL驱动的隐式场变形网络使服装能够适应不同的体型,支持服装的自由转移和重用,并实现了虚拟试穿和分层人体动画。
📝 摘要(中文)
本文旨在从文本提示生成物理分层的3D人体。现有方法要么将3D服装人体作为一个整体生成,要么仅支持紧身和简单的服装生成,这限制了它们在虚拟试穿和零件级编辑中的应用。为了实现具有可重用和复杂服装的物理分层3D人体生成,我们提出了一种基于物理分离扩散模型的新型分层服装人体表示。具体来说,为了实现分层服装生成,我们提出了一个双重表示解耦框架,用于生成与人体解耦的服装,并结合了一种创新的多层融合体积渲染方法。为了使服装与不同的体型相匹配,我们提出了一个SMPL驱动的隐式场变形网络,该网络能够自由地转移和重用服装。大量实验表明,我们的方法不仅实现了最先进的具有复杂服装的分层3D人体生成,而且还支持虚拟试穿和分层人体动画。
🔬 方法详解
问题定义:现有方法在生成3D服装人体时,要么将服装和人体作为一个整体生成,无法实现分层编辑和服装重用;要么仅支持紧身和简单的服装生成,难以处理复杂服装。这限制了其在虚拟试穿、角色定制等领域的应用。因此,本文旨在解决如何生成具有复杂服装且物理分层的3D人体,并支持服装的自由转移和重用问题。
核心思路:本文的核心思路是将服装与人体解耦,分别进行生成,然后通过SMPL模型驱动的隐式场变形网络将服装适配到不同体型的人体上。这种解耦的方式使得服装可以独立地进行编辑和重用,从而提高了生成服装的灵活性和可控性。同时,利用扩散模型强大的生成能力,可以生成更加逼真和复杂的服装。
技术框架:该方法主要包含以下几个模块:1) 双重表示解耦框架:用于生成与人体解耦的服装,包括服装的几何形状和纹理信息。2) 多层融合体积渲染:将不同图层的服装进行融合,生成最终的3D服装人体。3) SMPL驱动的隐式场变形网络:根据SMPL模型参数,将服装适配到不同体型的人体上。整体流程是:首先,通过文本提示生成解耦的服装表示;然后,利用SMPL模型获取人体形状;接着,通过隐式场变形网络将服装适配到人体上;最后,通过多层融合体积渲染生成最终的3D服装人体。
关键创新:该方法最重要的创新点在于提出了一个双重表示解耦框架,将服装与人体解耦,从而实现了分层服装的生成和编辑。此外,SMPL驱动的隐式场变形网络使得服装可以自由地转移和重用,大大提高了服装生成的灵活性和可控性。
关键设计:在双重表示解耦框架中,使用了扩散模型来生成服装的几何形状和纹理信息。SMPL驱动的隐式场变形网络采用了一种基于隐式场的表示方法,将服装的变形过程建模为一个隐式函数。损失函数包括几何损失、纹理损失和正则化损失,用于保证生成服装的质量和适配性。具体网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在分层3D人体生成方面取得了显著的成果,能够生成具有复杂服装的3D人体,并支持虚拟试穿和分层人体动画。与现有方法相比,该方法生成的服装更加逼真和自然,且具有更好的可编辑性和可重用性。具体性能数据和对比基线在论文中有详细展示。
🎯 应用场景
该研究成果可广泛应用于虚拟试穿、游戏角色定制、数字人生成、服装设计等领域。通过该方法,用户可以根据自己的需求定制服装,并将其应用到不同的虚拟角色上。此外,该方法还可以用于服装设计,设计师可以通过文本提示快速生成各种款式的服装,并进行修改和调整。未来,该技术有望进一步发展,实现更加逼真和智能的3D服装人体生成。
📄 摘要(原文)
This paper aims to generate physically-layered 3D humans from text prompts. Existing methods either generate 3D clothed humans as a whole or support only tight and simple clothing generation, which limits their applications to virtual try-on and part-level editing. To achieve physically-layered 3D human generation with reusable and complex clothing, we propose a novel layer-wise dressed human representation based on a physically-decoupled diffusion model. Specifically, to achieve layer-wise clothing generation, we propose a dual-representation decoupling framework for generating clothing decoupled from the human body, in conjunction with an innovative multi-layer fusion volume rendering method. To match the clothing with different body shapes, we propose an SMPL-driven implicit field deformation network that enables the free transfer and reuse of clothing. Extensive experiments demonstrate that our approach not only achieves state-of-the-art layered 3D human generation with complex clothing but also supports virtual try-on and layered human animation.