Synthetic Prior for Few-Shot Drivable Head Avatar Inversion

📄 arXiv: 2501.06903v3 📥 PDF

作者: Wojciech Zielonka, Stephan J. Garbin, Alexandros Lattas, George Kopanas, Paulo Gotardo, Thabo Beeler, Justus Thies, Timo Bolkart

分类: cs.CV

发布日期: 2025-01-12 (更新: 2025-03-31)

备注: Accepted to CVPR25 Website: https://zielon.github.io/synshot/


💡 一句话要点

SynShot:基于合成先验的少样本可驱动头部头像反演方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 头部头像反演 少样本学习 合成数据 3D高斯溅射 可驱动头像 领域自适应 人脸生成

📋 核心要点

  1. 现有可控头部头像生成方法依赖大量真实数据,面临数据获取困难和隐私合规问题。
  2. SynShot利用大规模合成数据学习头部先验,通过少量目标图像微调,实现逼真头像生成。
  3. 实验表明,SynShot在 novel view 和 novel expression 合成方面显著优于现有单目和GAN方法。

📝 摘要(中文)

本文提出了一种名为SynShot的新方法,用于基于合成先验进行少样本可驱动头部头像反演。该方法旨在解决三个主要挑战:一是训练可控的3D生成网络需要大量的多样化序列,而图像和高质量跟踪网格的配对数据并非总是可用;二是真实数据的使用受到严格监管(例如,通用数据保护条例要求频繁删除模型和数据,以适应参与者撤回同意的情况);三是目前最先进的单目头像模型难以推广到新的视角和表情,缺乏强大的先验知识,并且经常过度拟合到特定的视点分布。受完全在合成数据上训练的机器学习模型的启发,我们提出了一种方法,该方法从具有不同身份、表情和视角的合成头部的大型数据集中学习先验模型。通过少量的输入图像,SynShot微调预训练的合成先验以弥合领域差距,从而建模一个逼真的头部头像,该头像可以推广到新的表情和视点。我们使用3D高斯溅射和卷积编码器-解码器对头部头像进行建模,该编码器-解码器在UV纹理空间中输出高斯参数。为了考虑头部不同部位(例如,皮肤与头发)的不同建模复杂性,我们嵌入了先验知识,并显式控制每个部位图元的上采样数量。与SOTA单目和基于GAN的方法相比,SynShot显着提高了新视角和表情的合成效果。

🔬 方法详解

问题定义:现有可驱动头部头像反演方法面临数据依赖和泛化性问题。真实数据获取成本高昂且涉及隐私风险,而现有单目方法缺乏强先验,难以推广到新的视角和表情,容易过拟合特定视点分布。

核心思路:SynShot的核心思路是利用大规模合成数据学习一个强大的头部先验模型,然后通过少量目标图像对该先验模型进行微调,从而实现少样本条件下的可驱动头部头像反演。这种方法避免了对大量真实数据的依赖,并利用合成数据的多样性来增强模型的泛化能力。

技术框架:SynShot包含两个主要阶段:1) 基于大规模合成数据训练头部先验模型;2) 使用少量目标图像微调先验模型,得到特定个体的可驱动头部头像。该框架使用3D高斯溅射(3D Gaussian splatting)来表示头部头像,并使用卷积编码器-解码器结构在UV纹理空间中输出高斯参数。

关键创新:SynShot的关键创新在于利用合成数据作为先验知识,并结合3D高斯溅射和卷积编码器-解码器结构,实现了少样本条件下的高质量可驱动头部头像反演。与现有方法相比,SynShot避免了对大量真实数据的依赖,并提高了模型的泛化能力。

关键设计:SynShot的关键设计包括:1) 使用大规模合成数据训练头部先验模型,确保模型的泛化能力;2) 使用3D高斯溅射来表示头部头像,实现高质量的渲染效果;3) 使用卷积编码器-解码器结构在UV纹理空间中输出高斯参数,实现对头部形状和纹理的精细控制;4) 嵌入先验知识,并显式控制每个部位图元的上采样数量,以适应头部不同部位的不同建模复杂性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SynShot在 novel view 和 novel expression 合成方面取得了显著的提升。与现有的单目和基于GAN的方法相比,SynShot能够生成更逼真、更自然的头部头像,并且能够更好地推广到新的视角和表情。具体性能数据未知,但论文强调了其在视觉效果上的显著改进。

🎯 应用场景

SynShot在虚拟现实、增强现实、游戏、视频会议等领域具有广泛的应用前景。它可以用于创建个性化的虚拟化身,实现逼真的面部表情和头部姿态控制,提升用户体验。此外,该方法还可以应用于数字内容创作、电影特效等领域,降低制作成本,提高制作效率。

📄 摘要(原文)

We present SynShot, a novel method for the few-shot inversion of a drivable head avatar based on a synthetic prior. We tackle three major challenges. First, training a controllable 3D generative network requires a large number of diverse sequences, for which pairs of images and high-quality tracked meshes are not always available. Second, the use of real data is strictly regulated (e.g., under the General Data Protection Regulation, which mandates frequent deletion of models and data to accommodate a situation when a participant's consent is withdrawn). Synthetic data, free from these constraints, is an appealing alternative. Third, state-of-the-art monocular avatar models struggle to generalize to new views and expressions, lacking a strong prior and often overfitting to a specific viewpoint distribution. Inspired by machine learning models trained solely on synthetic data, we propose a method that learns a prior model from a large dataset of synthetic heads with diverse identities, expressions, and viewpoints. With few input images, SynShot fine-tunes the pretrained synthetic prior to bridge the domain gap, modeling a photorealistic head avatar that generalizes to novel expressions and viewpoints. We model the head avatar using 3D Gaussian splatting and a convolutional encoder-decoder that outputs Gaussian parameters in UV texture space. To account for the different modeling complexities over parts of the head (e.g., skin vs hair), we embed the prior with explicit control for upsampling the number of per-part primitives. Compared to SOTA monocular and GAN-based methods, SynShot significantly improves novel view and expression synthesis.