$E^{3}$Gen: Efficient, Expressive and Editable Avatars Generation

📄 arXiv: 2405.19203v2 📥 PDF

作者: Weitian Zhang, Yichao Yan, Yunhui Liu, Xingdong Sheng, Xiaokang Yang

分类: cs.CV

发布日期: 2024-05-29 (更新: 2024-05-30)

备注: Project Page: https://olivia23333.github.io/E3Gen

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出E³Gen,实现高效、富有表现力且可编辑的3D头像生成

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D头像生成 3D高斯 生成模型 扩散模型 SMPL-X 姿态控制 UV特征平面

📋 核心要点

  1. 现有3D高斯表示的非结构化特性使其难以融入现有的生成式建模流程,限制了其在头像生成领域的应用。
  2. E³Gen通过将3D高斯投影到SMPL-X模型的UV空间,构建结构化的UV特征平面,从而实现生成式学习。
  3. 提出的部分感知变形模块能够实现对全身姿态的精确控制,从而生成富有表现力的可编辑头像。

📝 摘要(中文)

本文旨在介绍一种基于3D高斯的数字头像生成方法,该方法具有高效、富有表现力且可编辑的特点。这项任务面临两个主要挑战:(1)3D高斯结构的非结构化特性使其与当前的生成流程不兼容;(2)在涉及多对象训练的生成环境中,3D高斯富有表现力的动画仍然是一个未被探索的领域。在本文中,我们提出了一种名为E³Gen的新型头像生成方法,以有效地应对这些挑战。首先,我们提出了一种新颖的生成UV特征平面表示,该表示将非结构化的3D高斯编码到由SMPL-X参数模型定义的结构化2D UV空间中。这种新颖的表示不仅保留了原始3D高斯的表示能力,而且在对象之间引入了共享结构,从而实现了扩散模型的生成学习。为了应对第二个挑战,我们提出了一个部分感知变形模块,以实现鲁棒和精确的全身姿态控制。大量的实验表明,我们的方法在头像生成方面取得了优异的性能,并实现了富有表现力的全身姿态控制和编辑。我们的项目主页是https://olivia23333.github.io/E3Gen。

🔬 方法详解

问题定义:现有的3D头像生成方法通常难以兼顾生成效率、表达能力和可编辑性。特别是,直接使用3D高斯表示进行生成式建模面临挑战,因为其非结构化的特性与现有生成流程不兼容。此外,如何实现3D高斯在生成环境下的富有表现力的动画,尤其是在多对象训练的情况下,仍然是一个未解决的问题。

核心思路:E³Gen的核心思路是将非结构化的3D高斯表示转换为结构化的2D UV特征平面,从而使其能够与现有的生成模型(如扩散模型)兼容。通过在SMPL-X模型的UV空间中编码3D高斯,该方法引入了对象之间的共享结构,从而促进了生成学习。此外,部分感知变形模块的设计旨在实现对全身姿态的精确控制,从而生成具有丰富表现力的头像。

技术框架:E³Gen的整体框架包括以下几个主要模块:1) 3D高斯表示;2) UV特征平面生成模块,将3D高斯投影到SMPL-X的UV空间;3) 基于扩散模型的生成器,用于生成UV特征平面;4) 部分感知变形模块,用于实现姿态控制;5) 渲染模块,将UV特征平面转换为最终的3D头像。训练过程包括生成器训练和变形模块训练。

关键创新:E³Gen的关键创新在于提出了生成UV特征平面表示,它将非结构化的3D高斯编码到结构化的2D UV空间中。这种表示方法不仅保留了3D高斯的表达能力,而且引入了对象之间的共享结构,从而使得可以使用扩散模型进行生成学习。与直接生成3D高斯的方法相比,E³Gen的结构化表示更易于训练和控制。

关键设计:部分感知变形模块是另一个关键设计。该模块利用SMPL-X模型提供的身体部件信息,对不同的身体部位进行独立的变形处理,从而实现更精确的姿态控制。损失函数的设计包括重建损失、对抗损失和正则化项,以保证生成头像的质量和多样性。具体的网络结构细节(如卷积层数、通道数等)和训练参数(如学习率、batch size等)需要在实验中进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,E³Gen在头像生成质量和姿态控制精度方面均优于现有方法。通过定量评估和定性比较,证明了E³Gen能够生成更逼真、更具表现力的3D头像。此外,实验还验证了部分感知变形模块的有效性,表明其能够实现对全身姿态的精确控制,并生成具有自然动画效果的头像。

🎯 应用场景

E³Gen在虚拟现实、增强现实、游戏开发和社交媒体等领域具有广泛的应用前景。它可以用于创建高度逼真且可定制的虚拟化身,用于在线交流、虚拟会议和娱乐。此外,该方法还可以用于生成各种姿势和表情的3D头像,从而为动画制作和虚拟角色设计提供便利。未来,E³Gen可以进一步扩展到生成具有更复杂外观和行为的数字人。

📄 摘要(原文)

This paper aims to introduce 3D Gaussian for efficient, expressive, and editable digital avatar generation. This task faces two major challenges: (1) The unstructured nature of 3D Gaussian makes it incompatible with current generation pipelines; (2) the expressive animation of 3D Gaussian in a generative setting that involves training with multiple subjects remains unexplored. In this paper, we propose a novel avatar generation method named $E^3$Gen, to effectively address these challenges. First, we propose a novel generative UV features plane representation that encodes unstructured 3D Gaussian onto a structured 2D UV space defined by the SMPL-X parametric model. This novel representation not only preserves the representation ability of the original 3D Gaussian but also introduces a shared structure among subjects to enable generative learning of the diffusion model. To tackle the second challenge, we propose a part-aware deformation module to achieve robust and accurate full-body expressive pose control. Extensive experiments demonstrate that our method achieves superior performance in avatar generation and enables expressive full-body pose control and editing. Our project page is https://olivia23333.github.io/E3Gen.