GASP: Gaussian Avatars with Synthetic Priors

📄 arXiv: 2412.07739v1 📥 PDF

作者: Jack Saunders, Charlie Hewitt, Yanan Jian, Marek Kowalski, Tadas Baltrusaitis, Yiye Chen, Darren Cosker, Virginia Estellers, Nicholas Gyde, Vinay P. Namboodiri, Benjamin E Lundell

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-12-10

备注: Project page: https://microsoft.github.io/GASP/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GASP:利用合成先验的高斯头像,实现单目视频驱动的360度高质量渲染

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 3D头像 单目重建 合成先验 实时渲染 人脸建模 可动画头像

📋 核心要点

  1. 现有高斯头像方法依赖多相机设备或仅支持固定视角渲染,限制了其应用范围和易用性。
  2. GASP利用合成数据训练高斯头像先验,然后将其拟合到单目视频或图像,实现高质量的360度渲染。
  3. 该方法仅在拟合阶段使用先验,推理阶段无需依赖,保证了实时渲染性能,可在商业硬件上达到70fps。

📝 摘要(中文)

高斯溅射技术改变了实时照片级渲染领域。其中一个最受欢迎的应用是创建可动画的头像,即高斯头像。目前的工作在质量和渲染效率方面取得了进展,但存在两个主要限制:要么需要昂贵的多相机设备来生成具有自由视角渲染的头像,要么可以使用单相机进行训练,但只能从固定视角进行高质量渲染。理想的模型应该能够使用网络摄像头等可用硬件拍摄的短单目视频或图像进行训练,并从任何视角进行渲染。为此,我们提出了GASP:具有合成先验的高斯头像。为了克服现有数据集的局限性,我们利用合成数据的像素完美特性来训练高斯头像先验。通过将此先验模型拟合到单个照片或视频并对其进行微调,我们获得了高质量的高斯头像,支持360度渲染。我们的先验仅用于拟合,而非推理,从而实现实时应用。通过我们的方法,我们从有限的数据中获得高质量、可动画的头像,这些头像可以在商业硬件上以70fps的速度进行动画和渲染。请访问我们的项目页面(https://microsoft.github.io/GASP/)查看结果。

🔬 方法详解

问题定义:现有高斯头像方法主要面临两个问题:一是需要昂贵的多相机设备才能实现自由视角的渲染,二是虽然可以使用单相机训练,但渲染质量仅限于固定视角。这限制了高斯头像在更广泛场景下的应用,例如使用普通网络摄像头创建高质量的3D头像。

核心思路:GASP的核心思路是利用合成数据训练一个高斯头像的先验模型。这个先验模型能够提供一个良好的初始化,使得模型能够从单目视频或图像中快速且稳定地学习到高质量的3D结构和纹理。通过先验的引导,可以克服单目数据带来的歧义性,从而实现360度视角的渲染。

技术框架:GASP的整体框架包含两个主要阶段:1) 先验训练阶段:使用大量的合成人脸数据训练一个高斯头像先验模型。这个先验模型学习人脸的通用结构和纹理信息。2) 个性化拟合阶段:将训练好的先验模型作为初始化,然后使用单目视频或图像数据进行微调,从而得到特定个体的3D头像。在推理阶段,直接使用微调后的高斯头像模型进行渲染,无需依赖先验。

关键创新:GASP的关键创新在于利用合成数据训练高斯头像先验。与直接从单目数据训练相比,先验模型能够提供更强的约束,从而避免过拟合和歧义性。此外,GASP的先验仅用于拟合阶段,而非推理阶段,这保证了实时渲染性能。

关键设计:GASP的关键设计包括:1) 使用高斯溅射作为3D表示,能够实现高质量的实时渲染。2) 设计合适的损失函数,包括重建损失、正则化损失等,以保证训练的稳定性和渲染质量。3) 精心选择合成数据集,以保证先验模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GASP在单目视频驱动的高斯头像生成方面取得了显著成果。实验表明,GASP能够使用单张照片或短视频生成高质量、可动画的3D头像,并且支持360度渲染。在商业硬件上,GASP能够以70fps的速度进行渲染,实现了实时交互。与现有方法相比,GASP在渲染质量和易用性方面均有显著提升。

🎯 应用场景

GASP技术可广泛应用于虚拟会议、游戏、社交媒体等领域。用户可以使用普通网络摄像头或手机拍摄的视频或照片,快速生成自己的3D头像,并用于各种虚拟场景中。该技术降低了3D头像创建的门槛,使得更多人能够参与到虚拟世界中,具有重要的商业价值和社会意义。

📄 摘要(原文)

Gaussian Splatting has changed the game for real-time photo-realistic rendering. One of the most popular applications of Gaussian Splatting is to create animatable avatars, known as Gaussian Avatars. Recent works have pushed the boundaries of quality and rendering efficiency but suffer from two main limitations. Either they require expensive multi-camera rigs to produce avatars with free-view rendering, or they can be trained with a single camera but only rendered at high quality from this fixed viewpoint. An ideal model would be trained using a short monocular video or image from available hardware, such as a webcam, and rendered from any view. To this end, we propose GASP: Gaussian Avatars with Synthetic Priors. To overcome the limitations of existing datasets, we exploit the pixel-perfect nature of synthetic data to train a Gaussian Avatar prior. By fitting this prior model to a single photo or video and fine-tuning it, we get a high-quality Gaussian Avatar, which supports 360$^\circ$ rendering. Our prior is only required for fitting, not inference, enabling real-time application. Through our method, we obtain high-quality, animatable Avatars from limited data which can be animated and rendered at 70fps on commercial hardware. See our project page (https://microsoft.github.io/GASP/) for results.