Capture, Canonicalize, Splat: Zero-Shot 3D Gaussian Avatars from Unstructured Phone Images
作者: Emanuel Garbin, Guy Adam, Oded Krams, Zohar Barzelay, Eran Guendelman, Michael Schwarz, Matteo Presutto, Moran Vatelmacher, Yigal Shenkman, Eli Peker, Itai Druker, Uri Patish, Yoav Blum, Max Bluvstein, Junxuan Li, Rawal Khirodkar, Shunsuke Saito
分类: cs.CV, cs.GR
发布日期: 2025-10-15 (更新: 2025-10-27)
备注: This work received the Best Paper Honorable Mention at the AMFG Workshop, ICCV 2025
💡 一句话要点
提出Capture, Canonicalize, Splat零样本3D高斯头像生成方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D头像重建 零样本学习 高斯溅射 生成式模型 Transformer 非结构化图像 身份保持
📋 核心要点
- 现有单视图3D头像重建方法存在几何不一致和身份信息丢失问题,合成数据训练模型难以捕捉高频细节。
- 论文提出“捕捉、规范化、溅射”流水线,利用生成式规范化模块和Transformer模型,实现零样本高逼真3D头像生成。
- 该方法基于真实人物穹顶捕捉数据训练,能有效保留身份信息,生成具有真实感和几何一致性的四分之一身头像。
📝 摘要(中文)
本文提出了一种新颖的零样本流水线,仅需少量非结构化的手机图像即可创建超逼真、保留身份信息的3D头像。现有方法面临诸多挑战:单视图方法存在几何不一致性和幻觉,降低了身份保持效果;而基于合成数据训练的模型无法捕捉皮肤皱纹和精细毛发等高频细节,限制了真实感。我们的方法引入了两项关键贡献:(1)一个生成式规范化模块,将多个非结构化视图处理成标准化的、一致的表示;(2)一个基于Transformer的模型,该模型在一个新的大规模数据集上进行训练,该数据集包含从真实人物的穹顶捕捉中获得的高保真高斯溅射头像。这种“捕捉、规范化、溅射”流水线从非结构化照片生成具有引人注目的真实感和强大的身份保持能力的静态四分之一身头像。
🔬 方法详解
问题定义:现有3D头像重建方法,特别是基于单视图或少量非结构化图像的方法,在几何一致性、身份保持和真实感方面存在不足。单视图方法容易产生几何幻觉和不一致性,而依赖合成数据训练的模型难以捕捉真实人脸的高频细节,如皮肤纹理和细微毛发,导致重建的头像不够逼真。因此,如何仅使用少量非结构化图像,生成具有高真实感、几何一致性和身份保持的3D头像是一个关键问题。
核心思路:论文的核心思路是将3D头像重建过程分解为三个阶段:捕捉(Capture)、规范化(Canonicalize)和溅射(Splat)。首先,从非结构化图像中提取信息;然后,将这些信息规范化到一个标准化的空间中,以保证几何一致性;最后,使用高斯溅射技术将规范化的表示渲染成高质量的3D头像。这种分解允许针对每个阶段进行优化,并利用大规模真实数据进行训练。
技术框架:整个流水线包含以下几个主要模块:1) 图像捕捉:从输入的非结构化图像中提取特征。2) 生成式规范化模块:将提取的特征转换为规范化的3D表示,该模块负责处理不同视角和光照条件下的图像,并生成一个一致的3D结构。3) Transformer模型:基于大规模高斯溅射头像数据集进行训练,用于将规范化的3D表示渲染成高质量的3D高斯头像。整个流程是端到端可训练的。
关键创新:该方法的关键创新在于结合了生成式规范化和高斯溅射技术,并利用大规模真实数据进行训练。生成式规范化模块能够有效地处理非结构化图像,并生成一致的3D表示,解决了单视图方法中的几何不一致性问题。高斯溅射技术能够高效地渲染高质量的3D头像,并保留高频细节。此外,使用真实数据训练的模型能够更好地捕捉人脸的真实纹理和细节。
关键设计:生成式规范化模块的具体网络结构未知,但其目标是生成一个规范化的3D表示。Transformer模型基于大规模高斯溅射头像数据集进行训练,损失函数可能包括重建损失和对抗损失,以保证生成头像的真实感和身份保持。高斯溅射的具体实现细节可能参考了现有工作,但针对头像重建进行了优化。具体参数设置未知。
📊 实验亮点
论文提出的方法在零样本条件下,仅使用少量非结构化手机图像,即可生成高真实感、几何一致性和身份保持的3D头像。虽然论文中没有给出具体的性能数据,但强调了该方法在真实感和身份保持方面的优势,并通过视觉效果展示了其优于现有方法的性能。该方法在大规模真实数据上进行训练,能够更好地捕捉人脸的真实纹理和细节。
🎯 应用场景
该技术可应用于虚拟现实、增强现实、游戏、社交媒体等领域,用户可以使用手机照片快速创建自己的3D虚拟形象,用于在线交流、虚拟化身、个性化定制等。该技术还可以用于数字内容创作,例如生成逼真的3D角色模型,提高内容制作效率和质量。未来,该技术有望进一步发展,实现全身3D头像的重建和动画驱动。
📄 摘要(原文)
We present a novel, zero-shot pipeline for creating hyperrealistic, identity-preserving 3D avatars from a few unstructured phone images. Existing methods face several challenges: single-view approaches suffer from geometric inconsistencies and hallucinations, degrading identity preservation, while models trained on synthetic data fail to capture high-frequency details like skin wrinkles and fine hair, limiting realism. Our method introduces two key contributions: (1) a generative canonicalization module that processes multiple unstructured views into a standardized, consistent representation, and (2) a transformer-based model trained on a new, large-scale dataset of high-fidelity Gaussian splatting avatars derived from dome captures of real people. This "Capture, Canonicalize, Splat" pipeline produces static quarter-body avatars with compelling realism and robust identity preservation from unstructured photos.