Disentangled Clothed Avatar Generation from Text Descriptions

📄 arXiv: 2312.05295v2 📥 PDF

作者: Jionghao Wang, Yuan Liu, Zhiyang Dou, Zhengming Yu, Yongqing Liang, Cheng Lin, Xin Li, Wenping Wang, Rong Xie, Li Song

分类: cs.CV

发布日期: 2023-12-08 (更新: 2024-09-26)

备注: Project page: https://shanemankiw.github.io/SO-SMPL/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SO-SMPL解耦服装与人体,实现高质量可动画的文本驱动 clothed avatar 生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到3D clothed avatar生成 解耦表示 SMPL模型 Score Distillation Sampling 虚拟试穿 角色动画

📋 核心要点

  1. 现有文本到 avatar 生成方法将服装、头发和身体等元素纠缠在一起,限制了下游编辑和动画任务的性能。
  2. 提出 SO-SMPL,一种解耦的 3D avatar 表示,它基于 SMPL 模型,使用偏移量关联人体和服装网格,保证物理对齐。
  3. 设计基于 SDS 的蒸馏框架,从文本提示生成 SO-SMPL 表示,提升了纹理、几何质量、语义对齐以及动画效果。

📝 摘要(中文)

本文提出了一种新颖的文本到 clothed avatar 生成方法,该方法分别生成人体和服装,并允许在生成的 avatar 上进行高质量的动画。虽然最近文本到 avatar 生成的进展已经从文本提示中产生了各种各样的人体 avatar,但这些方法通常将所有元素(衣服、头发和身体)组合成一个单一的 3D 表示。这种纠缠的方法给编辑或动画等下游任务带来了挑战。为了克服这些限制,我们提出了一种新颖的解耦 3D avatar 表示,名为 Sequentially Offset-SMPL (SO-SMPL),它建立在 SMPL 模型之上。SO-SMPL 用两个单独的网格表示人体和衣服,但将它们与偏移量相关联,以确保身体和衣服之间的物理对齐。然后,我们设计了一个基于 Score Distillation Sampling (SDS) 的蒸馏框架,以从文本提示生成所提出的 SO-SMPL 表示。我们的方法不仅实现了更高的纹理和几何质量以及与文本提示更好的语义对齐,而且还显著提高了角色动画、虚拟试穿和 avatar 编辑的视觉质量。

🔬 方法详解

问题定义:现有文本到 avatar 生成方法通常将服装、头发和身体等元素组合成单一的 3D 表示,导致这些元素之间相互纠缠,难以进行单独编辑和高质量动画。这种纠缠性限制了 avatar 在虚拟试穿、角色动画等下游任务中的应用,降低了用户体验。

核心思路:本文的核心思路是将人体和服装进行解耦表示,分别建模,并通过偏移量将它们关联起来,从而保证物理上的对齐。这种解耦表示允许独立地控制和编辑服装和人体,从而提高动画质量和编辑灵活性。同时,利用文本信息指导 avatar 的生成,实现文本驱动的 clothed avatar 生成。

技术框架:该方法基于 Score Distillation Sampling (SDS) 的蒸馏框架。首先,定义了一种新的 avatar 表示形式 SO-SMPL,它将人体和服装分别表示为两个独立的网格,并使用偏移量将它们关联起来。然后,利用 SDS 框架,通过文本提示指导 SO-SMPL 表示的生成。具体来说,使用预训练的文本到图像扩散模型作为先验知识,通过优化 SO-SMPL 的参数,使得生成的图像与文本提示一致。

关键创新:该方法最重要的创新点在于提出了 SO-SMPL 这种解耦的 avatar 表示形式。与现有方法相比,SO-SMPL 能够将人体和服装进行独立建模,从而避免了元素之间的纠缠。此外,该方法还利用 SDS 框架,将预训练的文本到图像扩散模型作为先验知识,从而提高了生成 avatar 的质量和语义一致性。

关键设计:SO-SMPL 的关键设计在于使用偏移量来关联人体和服装网格。具体来说,对于服装网格上的每个顶点,都定义一个相对于人体网格上对应顶点的偏移量。通过优化这些偏移量,可以保证服装与人体在物理上的对齐。此外,在 SDS 框架中,使用了预训练的 Stable Diffusion 模型作为图像先验,并设计了相应的损失函数来指导 SO-SMPL 的生成。损失函数包括文本-图像对齐损失、几何损失和正则化损失等。

📊 实验亮点

实验结果表明,该方法在纹理和几何质量、语义对齐以及动画效果方面均优于现有方法。与现有方法相比,该方法生成的 avatar 具有更高的真实感和更好的可控性。项目主页展示了大量实验结果,包括不同文本提示生成的 avatar 以及动画效果,证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、电商等领域。例如,用户可以通过文本描述定制个性化的 clothed avatar,用于虚拟社交、游戏角色扮演等。在电商领域,可以实现虚拟试穿功能,提升用户购物体验。此外,该技术还可以应用于电影制作、动画设计等领域,提高内容创作效率。

📄 摘要(原文)

In this paper, we introduce a novel text-to-avatar generation method that separately generates the human body and the clothes and allows high-quality animation on the generated avatar. While recent advancements in text-to-avatar generation have yielded diverse human avatars from text prompts, these methods typically combine all elements-clothes, hair, and body-into a single 3D representation. Such an entangled approach poses challenges for downstream tasks like editing or animation. To overcome these limitations, we propose a novel disentangled 3D avatar representation named Sequentially Offset-SMPL (SO-SMPL), building upon the SMPL model. SO-SMPL represents the human body and clothes with two separate meshes but associates them with offsets to ensure the physical alignment between the body and the clothes. Then, we design a Score Distillation Sampling (SDS)-based distillation framework to generate the proposed SO-SMPL representation from text prompts. Our approach not only achieves higher texture and geometry quality and better semantic alignment with text prompts, but also significantly improves the visual quality of character animation, virtual try-on, and avatar editing. Project page: https://shanemankiw.github.io/SO-SMPL/.