Capture, Canonicalize, Splat: Zero-Shot 3D Gaussian Avatars from Unstructured Phone Images

📄 arXiv: 2510.14081v3 📥 PDF

作者: Emanuel Garbin, Guy Adam, Oded Krams, Zohar Barzelay, Eran Guendelman, Michael Schwarz, Matteo Presutto, Moran Vatelmacher, Yigal Shenkman, Eli Peker, Itai Druker, Uri Patish, Yoav Blum, Max Bluvstein, Junxuan Li, Rawal Khirodkar, Shunsuke Saito

分类: cs.CV, cs.GR

发布日期: 2025-10-15 (更新: 2025-10-27)

备注: This work received the Best Paper Honorable Mention at the AMFG Workshop, ICCV 2025


💡 一句话要点

提出Capture, Canonicalize, Splat零样本3D高斯头像生成方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D头像重建 高斯溅射 零样本学习 生成式模型 Transformer 人脸建模 图像规范化

📋 核心要点

  1. 现有单视图3D头像重建方法易产生几何伪影,身份保持效果差;合成数据训练模型难以捕捉真实人像高频细节。
  2. 论文提出“Capture, Canonicalize, Splat”流水线,利用生成式规范化模块和Transformer模型,实现零样本高逼真度3D头像生成。
  3. 该方法基于真实人像圆顶捕捉数据训练,能从少量非结构化手机图像重建出高质量、身份保持良好的静态四分之一身头像。

📝 摘要(中文)

本文提出了一种新颖的零样本流水线,仅需少量非结构化的手机图像即可创建超逼真、保留身份信息的3D头像。现有方法面临诸多挑战:单视图方法存在几何不一致性和幻觉,降低了身份保持能力;而基于合成数据训练的模型无法捕捉皮肤皱纹和精细毛发等高频细节,限制了真实感。我们的方法引入了两项关键贡献:(1) 一个生成式规范化模块,将多个非结构化视图处理成标准化的、一致的表示;(2) 一个基于Transformer的模型,该模型在一个新的大规模数据集上进行训练,该数据集包含从真人圆顶捕捉中获得的高保真高斯溅射头像。这种“Capture, Canonicalize, Splat”流水线从非结构化照片生成具有引人注目的真实感和强大的身份保持能力的静态四分之一身头像。

🔬 方法详解

问题定义:现有3D头像重建方法主要面临两个问题:一是单视图方法由于缺乏多视角信息,容易产生几何不一致性和幻觉,导致身份信息丢失;二是基于合成数据训练的模型,虽然可以生成较好的几何结构,但难以捕捉真实人像的高频细节,如皮肤纹理、毛发等,导致真实感不足。因此,如何仅使用少量非结构化图像,生成高真实度、身份保持良好的3D头像是一个挑战。

核心思路:论文的核心思路是将3D头像重建过程分解为三个阶段:Capture(图像捕获)、Canonicalize(规范化)和Splat(高斯溅射)。首先,利用非结构化图像进行捕获;然后,通过生成式规范化模块将多视角的图像信息融合,生成一个规范化的3D表示,消除几何不一致性;最后,利用在高保真高斯溅射头像数据集上训练的Transformer模型,将规范化表示转换为高质量的3D高斯溅射头像。

技术框架:整个流水线包含以下几个主要模块:1) 图像捕获模块:负责从非结构化的手机图像中提取特征。2) 生成式规范化模块:将多视角的图像特征融合,生成一个规范化的3D表示。该模块可能包含一个变分自编码器(VAE)或生成对抗网络(GAN)结构,用于学习3D人脸的潜在空间。3) Transformer模型:将规范化表示转换为3D高斯溅射参数。该模型在高保真高斯溅射头像数据集上进行训练,学习从潜在空间到高斯溅射参数的映射关系。4) 高斯溅射渲染模块:根据高斯溅射参数,渲染出最终的3D头像。

关键创新:论文的关键创新在于以下几点:1) 提出了“Capture, Canonicalize, Splat”流水线,将3D头像重建过程分解为三个阶段,简化了问题。2) 引入了生成式规范化模块,有效解决了多视角图像融合问题,消除了几何不一致性。3) 利用在高保真高斯溅射头像数据集上训练的Transformer模型,实现了高真实度3D头像的生成。与现有方法相比,该方法无需合成数据训练,可以直接从真实图像生成高质量的3D头像。

关键设计:关于生成式规范化模块,具体实现细节未知,但推测可能采用VAE或GAN结构,损失函数可能包含重建损失、对抗损失和正则化项。Transformer模型的具体结构也未知,但可能采用标准的Transformer编码器-解码器结构,损失函数可能包含高斯溅射参数的重建损失。高斯溅射渲染模块采用标准的高斯溅射渲染方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在零样本条件下,仅使用少量非结构化手机图像,即可生成高真实度、身份保持良好的3D头像。与现有方法相比,该方法无需合成数据训练,可以直接从真实图像生成高质量的3D头像。具体的性能数据和对比基线未知。

🎯 应用场景

该技术可应用于虚拟现实/增强现实(VR/AR)中的个性化头像创建、游戏中的角色定制、视频会议中的虚拟形象生成,以及社交媒体中的3D表情符号等。它能够降低3D头像创建的门槛,使用户仅通过手机照片即可生成逼真的个人3D形象,具有广泛的应用前景。

📄 摘要(原文)

We present a novel, zero-shot pipeline for creating hyperrealistic, identity-preserving 3D avatars from a few unstructured phone images. Existing methods face several challenges: single-view approaches suffer from geometric inconsistencies and hallucinations, degrading identity preservation, while models trained on synthetic data fail to capture high-frequency details like skin wrinkles and fine hair, limiting realism. Our method introduces two key contributions: (1) a generative canonicalization module that processes multiple unstructured views into a standardized, consistent representation, and (2) a transformer-based model trained on a new, large-scale dataset of high-fidelity Gaussian splatting avatars derived from dome captures of real people. This "Capture, Canonicalize, Splat" pipeline produces static quarter-body avatars with compelling realism and robust identity preservation from unstructured photos.