Instant Facial Gaussians Translator for Relightable and Interactable Facial Rendering
作者: Dafei Qin, Hongyang Lin, Qixuan Zhang, Kaichun Qiao, Longwen Zhang, Zijun Zhao, Jun Saito, Jingyi Yu, Lan Xu, Taku Komura
分类: cs.GR
发布日期: 2024-09-11 (更新: 2024-09-30)
备注: Project Page: https://dafei-qin.github.io/TransGS.github.io/
💡 一句话要点
提出GauFace和TransGS,实现可重光照和交互式面部渲染
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 面部渲染 高斯溅射 扩散模型 实时渲染 移动平台
📋 核心要点
- 现有面部渲染方法难以兼顾高保真度、实时性和交互性,尤其是在移动平台上。
- 提出GauFace,一种结构化高斯溅射表示,并结合TransGS扩散Transformer,实现快速转换和高质量渲染。
- 实验表明,该方法在面部资产渲染方面优于传统渲染器和神经渲染方法,并在多种平台上实现应用。
📝 摘要(中文)
本文提出GauFace,一种新颖的基于高斯溅射的面部表示方法,专为高效的、基于物理的面部资产动画和渲染设计。GauFace利用强大的几何先验和约束优化,确保高斯表示的整洁和结构化,在骁龙8 Gen 2移动平台上以30fps@1440p的速度提供高保真和实时的面部交互。此外,本文还引入了TransGS,一种扩散Transformer,可将基于物理的面部资产即时转换为相应的GauFace表示。具体来说,采用基于patch的pipeline来有效地处理大量高斯分布。同时,引入了一种新颖的像素对齐采样方案,结合UV位置编码,以确保TransGS生成的GauFace资产的吞吐量和渲染质量。经过训练后,TransGS可以即时将具有光照条件的面部资产转换为GauFace表示。凭借丰富的条件模态,它还支持类似于传统CG流程的编辑和动画功能。大量的评估和用户研究表明,与传统的离线和在线渲染器以及最新的神经渲染方法相比,本文的方法在面部资产渲染方面表现出卓越的性能。最后,展示了使用TransGS方法和GauFace表示在各种平台(如PC、手机甚至VR头显)上的各种沉浸式面部资产应用。
🔬 方法详解
问题定义:论文旨在解决面部资产的高效、高质量渲染问题,尤其是在移动平台等资源受限的环境下。现有的离线渲染方法速度慢,难以实现实时交互;在线渲染方法虽然速度快,但难以保证渲染质量;而神经渲染方法通常计算量大,难以在移动设备上运行。因此,需要一种既能保证渲染质量,又能实现实时交互的面部表示方法。
核心思路:论文的核心思路是将基于物理的面部资产转换为一种结构化的高斯溅射表示(GauFace),并利用扩散Transformer(TransGS)实现快速转换。GauFace通过几何先验和约束优化,保证了高斯分布的整洁和结构化,从而提高了渲染效率。TransGS则通过学习从物理面部资产到GauFace的映射关系,实现了快速转换,并支持编辑和动画等功能。这样,既能保证渲染质量,又能实现实时交互。
技术框架:整体框架包含两个主要部分:GauFace表示和TransGS转换器。首先,将基于物理的面部资产转换为GauFace表示,该表示是一种结构化的高斯溅射模型。然后,使用TransGS扩散Transformer学习从物理面部资产到GauFace的映射关系。TransGS采用基于patch的pipeline来处理大量高斯分布,并引入像素对齐采样方案和UV位置编码来提高渲染质量。在推理阶段,TransGS可以将具有光照条件的面部资产即时转换为GauFace表示,并支持编辑和动画等功能。
关键创新:论文的关键创新在于提出了GauFace表示和TransGS转换器。GauFace是一种结构化的高斯溅射表示,通过几何先验和约束优化,保证了高斯分布的整洁和结构化,从而提高了渲染效率。TransGS则是一种扩散Transformer,可以学习从物理面部资产到GauFace的映射关系,实现了快速转换,并支持编辑和动画等功能。与现有方法相比,GauFace和TransGS能够更好地兼顾渲染质量和渲染效率。
关键设计:TransGS采用扩散Transformer架构,使用patch-based pipeline处理大量高斯分布。为了提高渲染质量,引入了像素对齐采样方案,并结合UV位置编码。损失函数包括渲染损失、几何损失等,用于约束GauFace的形状和外观。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GauFace在骁龙8 Gen 2移动平台上可以实现30fps@1440p的实时渲染,并且渲染质量优于传统的离线和在线渲染器以及最新的神经渲染方法。用户研究也表明,用户对GauFace的渲染效果和交互体验给予了高度评价。TransGS能够快速将物理面部资产转换为GauFace表示,大大提高了面部资产的制作效率。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏、社交媒体等领域。例如,用户可以使用该技术创建个性化的虚拟形象,并在VR/AR环境中进行实时交互。此外,该技术还可以用于面部动画、表情迁移、数字替身等应用,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
We propose GauFace, a novel Gaussian Splatting representation, tailored for efficient animation and rendering of physically-based facial assets. Leveraging strong geometric priors and constrained optimization, GauFace ensures a neat and structured Gaussian representation, delivering high fidelity and real-time facial interaction of 30fps@1440p on a Snapdragon 8 Gen 2 mobile platform. Then, we introduce TransGS, a diffusion transformer that instantly translates physically-based facial assets into the corresponding GauFace representations. Specifically, we adopt a patch-based pipeline to handle the vast number of Gaussians effectively. We also introduce a novel pixel-aligned sampling scheme with UV positional encoding to ensure the throughput and rendering quality of GauFace assets generated by our TransGS. Once trained, TransGS can instantly translate facial assets with lighting conditions to GauFace representation, With the rich conditioning modalities, it also enables editing and animation capabilities reminiscent of traditional CG pipelines. We conduct extensive evaluations and user studies, compared to traditional offline and online renderers, as well as recent neural rendering methods, which demonstrate the superior performance of our approach for facial asset rendering. We also showcase diverse immersive applications of facial assets using our TransGS approach and GauFace representation, across various platforms like PCs, phones and even VR headsets.