PERSE: Personalized 3D Generative Avatars from A Single Portrait

📄 arXiv: 2412.21206v2 📥 PDF

作者: Hyunsoo Cha, Inhee Lee, Hanbyul Joo

分类: cs.CV

发布日期: 2024-12-30 (更新: 2025-09-28)

备注: Accepted to CVPR 2025, Project Page: https://hyunsoocha.github.io/perse/


💡 一句话要点

PERSE:基于单张人像生成个性化3D可控头像,实现面部属性解耦编辑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D头像生成 个性化建模 面部属性编辑 解耦表示 3D高斯溅射

📋 核心要点

  1. 现有3D头像生成方法难以在保留个体身份的同时,实现精细的面部属性控制和解耦编辑。
  2. PERSE通过合成带有属性变化的2D视频数据集,并结合3D高斯溅射,学习解耦的潜在空间。
  3. 实验表明,PERSE能够生成高质量的个性化3D头像,并支持平滑的面部属性插值和编辑。

📝 摘要(中文)

PERSE提出了一种从单张参考人像构建个性化3D生成头像的方法。该头像支持在连续且解耦的潜在空间中进行面部属性编辑,从而控制每个面部属性,同时保留个人的身份信息。为了实现这一目标,该方法首先合成大规模的合成2D视频数据集,其中每个视频都包含面部表情和视点的连续变化,以及来自原始输入的特定面部属性的变化。我们提出了一种新颖的流程来生成具有面部属性编辑的高质量、照片级真实的2D视频。利用这种合成属性数据集,我们提出了一种基于3D高斯溅射的个性化头像创建方法,学习一个连续且解耦的潜在空间,用于直观的面部属性操作。为了加强这个潜在空间的平滑过渡,我们引入了一种潜在空间正则化技术,使用插值的2D人脸作为监督。与以前的方法相比,我们证明PERSE生成具有插值属性的高质量头像,同时保留参考个体的身份。

🔬 方法详解

问题定义:现有3D头像生成方法通常难以在保留个体身份信息的同时,实现对特定面部属性的精确控制和解耦编辑。这些方法在属性编辑的平滑性和可控性方面存在局限性,难以生成高质量的、可定制的个性化头像。

核心思路:PERSE的核心思路是利用合成数据来训练一个可控的3D头像生成模型。通过生成大量带有面部属性变化的2D视频,模型可以学习到面部属性与潜在空间之间的映射关系,从而实现对3D头像的个性化定制和属性编辑。这种方法避免了直接在真实数据上进行训练的困难,提高了模型的泛化能力和可控性。

技术框架:PERSE的整体框架包含以下几个主要阶段:1) 2D视频数据集合成:利用输入的人脸图像,生成包含不同面部表情、视点和特定面部属性变化的2D视频数据集。2) 3D高斯溅射模型训练:基于合成的2D视频数据集,训练一个基于3D高斯溅射的个性化头像生成模型。3) 潜在空间正则化:通过引入潜在空间正则化技术,使用插值的2D人脸作为监督,保证潜在空间的平滑过渡。

关键创新:PERSE的关键创新在于其合成数据生成流程和潜在空间正则化方法。通过合成高质量的、带有属性变化的2D视频,PERSE能够有效地训练3D头像生成模型,并实现对个体身份的保留和面部属性的解耦编辑。潜在空间正则化进一步提高了属性编辑的平滑性和可控性。

关键设计:在2D视频数据集合成阶段,PERSE采用了一种新颖的流程,以生成具有照片级真实感的视频。在3D高斯溅射模型训练阶段,PERSE使用了特定的损失函数来保证生成的3D头像与输入人脸的相似性,并鼓励潜在空间的解耦性。潜在空间正则化通过最小化插值人脸与生成人脸之间的差异来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PERSE在个性化3D头像生成方面取得了显著的成果。实验结果表明,PERSE能够生成高质量的、照片级真实的3D头像,并支持平滑的面部属性插值和编辑。与现有方法相比,PERSE在保留个体身份信息和实现面部属性解耦编辑方面具有明显的优势。通过定性和定量分析,验证了PERSE的有效性和优越性。

🎯 应用场景

PERSE生成的个性化3D头像在虚拟现实、增强现实、游戏、社交媒体等领域具有广泛的应用前景。用户可以使用PERSE创建自己的虚拟化身,用于在线交流、虚拟会议、游戏角色定制等。该技术还可以应用于数字内容创作、虚拟试妆、人脸动画等领域,具有重要的商业价值和潜在的社会影响。

📄 摘要(原文)

We present PERSE, a method for building a personalized 3D generative avatar from a reference portrait. Our avatar enables facial attribute editing in a continuous and disentangled latent space to control each facial attribute, while preserving the individual's identity. To achieve this, our method begins by synthesizing large-scale synthetic 2D video datasets, where each video contains consistent changes in facial expression and viewpoint, along with variations in a specific facial attribute from the original input. We propose a novel pipeline to produce high-quality, photorealistic 2D videos with facial attribute editing. Leveraging this synthetic attribute dataset, we present a personalized avatar creation method based on 3D Gaussian Splatting, learning a continuous and disentangled latent space for intuitive facial attribute manipulation. To enforce smooth transitions in this latent space, we introduce a latent space regularization technique by using interpolated 2D faces as supervision. Compared to previous approaches, we demonstrate that PERSE generates high-quality avatars with interpolated attributes while preserving the identity of the reference individual.