PERSE: Personalized 3D Generative Avatars from A Single Portrait

作者: Hyunsoo Cha, Inhee Lee, Hanbyul Joo

分类: cs.CV

发布日期: 2024-12-30 (更新: 2025-09-28)

备注: Accepted to CVPR 2025, Project Page: https://hyunsoocha.github.io/perse/

💡 一句话要点

PERSE：基于单张人像生成个性化3D可控头像，实现面部属性解耦编辑

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D头像生成 个性化建模 面部属性编辑 解耦表示 3D高斯溅射

📋 核心要点

现有3D头像生成方法难以在保留个体身份的同时，实现精细的面部属性控制和解耦编辑。
PERSE通过合成带有属性变化的2D视频数据集，并结合3D高斯溅射，学习解耦的潜在空间。
实验表明，PERSE能够生成高质量的个性化3D头像，并支持平滑的面部属性插值和编辑。

📝 摘要（中文）

PERSE提出了一种从单张参考人像构建个性化3D生成头像的方法。该头像支持在连续且解耦的潜在空间中进行面部属性编辑，从而控制每个面部属性，同时保留个人的身份信息。为了实现这一目标，该方法首先合成大规模的合成2D视频数据集，其中每个视频都包含面部表情和视点的连续变化，以及来自原始输入的特定面部属性的变化。我们提出了一种新颖的流程来生成具有面部属性编辑的高质量、照片级真实的2D视频。利用这种合成属性数据集，我们提出了一种基于3D高斯溅射的个性化头像创建方法，学习一个连续且解耦的潜在空间，用于直观的面部属性操作。为了加强这个潜在空间的平滑过渡，我们引入了一种潜在空间正则化技术，使用插值的2D人脸作为监督。与以前的方法相比，我们证明PERSE生成具有插值属性的高质量头像，同时保留参考个体的身份。

🔬 方法详解

问题定义：现有3D头像生成方法通常难以在保留个体身份信息的同时，实现对特定面部属性的精确控制和解耦编辑。这些方法在属性编辑的平滑性和可控性方面存在局限性，难以生成高质量的、可定制的个性化头像。

核心思路：PERSE的核心思路是利用合成数据来训练一个可控的3D头像生成模型。通过生成大量带有面部属性变化的2D视频，模型可以学习到面部属性与潜在空间之间的映射关系，从而实现对3D头像的个性化定制和属性编辑。这种方法避免了直接在真实数据上进行训练的困难，提高了模型的泛化能力和可控性。

技术框架：PERSE的整体框架包含以下几个主要阶段：1) 2D视频数据集合成：利用输入的人脸图像，生成包含不同面部表情、视点和特定面部属性变化的2D视频数据集。2) 3D高斯溅射模型训练：基于合成的2D视频数据集，训练一个基于3D高斯溅射的个性化头像生成模型。3) 潜在空间正则化：通过引入潜在空间正则化技术，使用插值的2D人脸作为监督，保证潜在空间的平滑过渡。

关键创新：PERSE的关键创新在于其合成数据生成流程和潜在空间正则化方法。通过合成高质量的、带有属性变化的2D视频，PERSE能够有效地训练3D头像生成模型，并实现对个体身份的保留和面部属性的解耦编辑。潜在空间正则化进一步提高了属性编辑的平滑性和可控性。

关键设计：在2D视频数据集合成阶段，PERSE采用了一种新颖的流程，以生成具有照片级真实感的视频。在3D高斯溅射模型训练阶段，PERSE使用了特定的损失函数来保证生成的3D头像与输入人脸的相似性，并鼓励潜在空间的解耦性。潜在空间正则化通过最小化插值人脸与生成人脸之间的差异来实现。

🖼️ 关键图片

📊 实验亮点

PERSE在个性化3D头像生成方面取得了显著的成果。实验结果表明，PERSE能够生成高质量的、照片级真实的3D头像，并支持平滑的面部属性插值和编辑。与现有方法相比，PERSE在保留个体身份信息和实现面部属性解耦编辑方面具有明显的优势。通过定性和定量分析，验证了PERSE的有效性和优越性。

🎯 应用场景

PERSE生成的个性化3D头像在虚拟现实、增强现实、游戏、社交媒体等领域具有广泛的应用前景。用户可以使用PERSE创建自己的虚拟化身，用于在线交流、虚拟会议、游戏角色定制等。该技术还可以应用于数字内容创作、虚拟试妆、人脸动画等领域，具有重要的商业价值和潜在的社会影响。

📄 摘要（原文）

We present PERSE, a method for building a personalized 3D generative avatar from a reference portrait. Our avatar enables facial attribute editing in a continuous and disentangled latent space to control each facial attribute, while preserving the individual's identity. To achieve this, our method begins by synthesizing large-scale synthetic 2D video datasets, where each video contains consistent changes in facial expression and viewpoint, along with variations in a specific facial attribute from the original input. We propose a novel pipeline to produce high-quality, photorealistic 2D videos with facial attribute editing. Leveraging this synthetic attribute dataset, we present a personalized avatar creation method based on 3D Gaussian Splatting, learning a continuous and disentangled latent space for intuitive facial attribute manipulation. To enforce smooth transitions in this latent space, we introduce a latent space regularization technique by using interpolated 2D faces as supervision. Compared to previous approaches, we demonstrate that PERSE generates high-quality avatars with interpolated attributes while preserving the identity of the reference individual.

PERSE: Personalized 3D Generative Avatars from A Single Portrait

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理