GGHead: Fast and Generalizable 3D Gaussian Heads
作者: Tobias Kirschstein, Simon Giebenhain, Jiapeng Tang, Markos Georgopoulos, Matthias Nießner
分类: cs.CV
发布日期: 2024-06-13 (更新: 2024-09-24)
备注: Project Page: https://tobias-kirschstein.github.io/gghead/ ; YouTube Video: https://youtu.be/M5vq3DoZ7RI
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出GGHead,利用3D高斯头部实现快速且可泛化的3D人头生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D人头生成 生成对抗网络 高斯溅射 UV空间 几何保真度
📋 核心要点
- 现有3D GAN在高分辨率图像生成方面存在训练和渲染速度慢、依赖2D超分辨率网络导致3D不一致等问题。
- GGHead利用3D高斯溅射表示,在3D GAN框架内通过2D CNN预测模板头部UV空间中的高斯属性。
- 实验表明,GGHead在FFHQ数据集上达到与现有方法相当的质量,同时速度更快,并实现了完全3D一致性。
📝 摘要(中文)
从大型2D图像集合中学习3D头部先验是实现高质量3D人头建模的重要一步。核心需求是高效的架构,能够很好地扩展到大型数据集和高图像分辨率。现有的3D GAN难以扩展以生成高分辨率样本,因为它们的训练和渲染速度相对较慢,并且通常不得不依赖2D超分辨率网络,从而牺牲了全局3D一致性。为了解决这些挑战,我们提出了生成式高斯头部(GGHead),它在3D GAN框架内采用了最新的3D高斯溅射表示。为了生成3D表示,我们采用强大的2D CNN生成器来预测模板头部网格UV空间中的高斯属性。通过这种方式,GGHead利用了模板UV布局的规律性,大大简化了预测非结构化3D高斯集合的具有挑战性的任务。我们还通过在渲染的UV坐标上使用新颖的总变差损失来提高生成的3D表示的几何保真度。直观地说,这种正则化鼓励相邻的渲染像素应源自模板UV空间中的相邻高斯。总而言之,我们的流程可以仅从单视图2D图像观察中有效地生成3D头部。我们提出的框架在FFHQ上与现有3D头部GAN的质量相匹配,同时速度更快且完全3D一致。因此,我们首次展示了以$1024^2$分辨率实时生成和渲染高质量的3D一致头部。
🔬 方法详解
问题定义:现有3D GAN在高分辨率人头生成方面面临速度和3D一致性挑战。它们要么训练和渲染速度慢,难以扩展到高分辨率,要么依赖2D超分辨率网络,导致全局3D一致性问题。
核心思路:GGHead的核心思路是将3D高斯溅射表示融入3D GAN框架,并利用模板头部网格的UV空间规律性来简化3D高斯属性的预测。通过在UV空间进行高斯属性预测,可以利用2D CNN的强大能力,并减少直接预测3D高斯参数的难度。
技术框架:GGHead的整体框架包括一个2D CNN生成器,用于预测模板头部网格UV空间中的高斯属性(如位置、缩放、旋转和颜色)。然后,这些属性被用于3D高斯溅射渲染,生成最终的3D人头图像。框架还包括一个判别器,用于区分生成的图像和真实图像,以训练生成器。
关键创新:GGHead的关键创新在于利用模板头部网格的UV空间进行高斯属性预测,以及引入了UV坐标的总变差损失。前者简化了3D高斯属性的预测,后者提高了生成3D表示的几何保真度。
关键设计:GGHead的关键设计包括:1) 使用2D CNN作为生成器,预测UV空间中的高斯属性;2) 引入总变差损失,鼓励相邻渲染像素来自UV空间中相邻的高斯,从而提高几何保真度;3) 使用3D高斯溅射进行快速渲染。
🖼️ 关键图片
📊 实验亮点
GGHead在FFHQ数据集上实现了与现有3D头部GAN相当的生成质量,同时显著提高了生成和渲染速度。该方法首次实现了以$1024^2$分辨率实时生成和渲染高质量的3D一致头部。此外,GGHead仅使用单视图2D图像进行训练,无需3D监督。
🎯 应用场景
GGHead具有广泛的应用前景,包括虚拟现实、增强现实、游戏、电影制作和数字人等领域。它可以用于创建逼真且可控的3D人头模型,为用户提供更加沉浸式和个性化的体验。此外,该技术还可以用于人脸识别、表情捕捉和人头重建等任务。
📄 摘要(原文)
Learning 3D head priors from large 2D image collections is an important step towards high-quality 3D-aware human modeling. A core requirement is an efficient architecture that scales well to large-scale datasets and large image resolutions. Unfortunately, existing 3D GANs struggle to scale to generate samples at high resolutions due to their relatively slow train and render speeds, and typically have to rely on 2D superresolution networks at the expense of global 3D consistency. To address these challenges, we propose Generative Gaussian Heads (GGHead), which adopts the recent 3D Gaussian Splatting representation within a 3D GAN framework. To generate a 3D representation, we employ a powerful 2D CNN generator to predict Gaussian attributes in the UV space of a template head mesh. This way, GGHead exploits the regularity of the template's UV layout, substantially facilitating the challenging task of predicting an unstructured set of 3D Gaussians. We further improve the geometric fidelity of the generated 3D representations with a novel total variation loss on rendered UV coordinates. Intuitively, this regularization encourages that neighboring rendered pixels should stem from neighboring Gaussians in the template's UV space. Taken together, our pipeline can efficiently generate 3D heads trained only from single-view 2D image observations. Our proposed framework matches the quality of existing 3D head GANs on FFHQ while being both substantially faster and fully 3D consistent. As a result, we demonstrate real-time generation and rendering of high-quality 3D-consistent heads at $1024^2$ resolution for the first time. Project Website: https://tobias-kirschstein.github.io/gghead