ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling
作者: Francesca Babiloni, Alexandros Lattas, Jiankang Deng, Stefanos Zafeiriou
分类: cs.CV, cs.AI
发布日期: 2024-05-26 (更新: 2024-05-28)
备注: Explore our 3D results at: https://idto3d.github.io ; fixed broken url to project page
💡 一句话要点
提出ID-to-3D,通过Score Distillation Sampling生成具有可控表情的身份一致3D人头模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D人头生成 扩散模型 身份一致性 表情解耦 神经渲染
📋 核心要点
- 现有方法难以仅从单张图像生成具有身份一致性和可控表情的高质量3D人头模型。
- ID-to-3D利用2D扩散模型作为先验,结合神经参数化表示,实现身份保持和表情解耦的3D人头生成。
- 实验表明,ID-to-3D在身份一致性和纹理质量上显著提升,且无需依赖大型3D数据集。
📝 摘要(中文)
本文提出了一种名为ID-to-3D的方法,该方法能够从单张自然场景图像出发,生成具有身份一致性和文本引导的、且表情可解耦的3D人头模型。该方法的核心在于组合性,并利用特定任务的2D扩散模型作为优化的先验。首先,通过微调基础模型中仅0.2%的参数,扩展了一个轻量级的、具有表情感知和身份感知的架构,并为几何体和纹理生成创建了2D先验。然后,联合利用神经参数化表示来表示每个对象的表情,并进行高度细节化的几何体和反照率纹理的多阶段生成。这种强大的面部身份嵌入和神经表示的结合,不仅能够准确地重建面部特征,还能重建配饰和头发,并可以进行网格化,为游戏和远程呈现提供可渲染的资产。实验结果表明,该方法在身份一致性和高质量纹理及几何体生成方面达到了前所未有的水平,能够泛化到未见过的3D身份,而无需依赖大型3D人体资产捕获数据集。
🔬 方法详解
问题定义:现有方法通常需要大量的3D扫描数据或者多视角图像才能重建高质量的3D人头模型,并且难以保证生成人头的身份一致性和表情可控性。从单张图像重建3D人头,尤其是在自然场景下捕获的图像,仍然是一个具有挑战性的问题。现有方法在处理配饰和头发等细节方面也存在不足。
核心思路:ID-to-3D的核心思路是利用预训练的2D扩散模型作为先验知识,指导3D人头模型的生成过程。通过微调扩散模型,使其能够感知身份和表情,从而生成具有身份一致性和可控表情的几何体和纹理。此外,使用神经参数化表示来建模表情,可以实现表情的解耦和控制。
技术框架:ID-to-3D的整体框架包括以下几个主要模块:1) 扩展基础扩散模型,使其具有身份感知和表情感知能力。2) 使用神经参数化表示建模表情。3) 多阶段生成高细节的几何体和反照率纹理。该框架首先利用身份嵌入提取身份信息,然后结合表情参数,通过扩散模型生成几何体和纹理。最后,将生成的几何体和纹理进行网格化,得到最终的3D人头模型。
关键创新:ID-to-3D的关键创新在于:1) 使用轻量级的微调方法,扩展了基础扩散模型,使其能够感知身份和表情。2) 联合利用神经参数化表示和多阶段生成,实现了高细节的几何体和纹理生成。3) 该方法不需要依赖大型3D数据集,可以泛化到未见过的3D身份。
关键设计:在扩展基础扩散模型时,只微调了0.2%的参数,以保证模型的泛化能力。使用VAE等方法进行表情参数化,并设计了相应的损失函数来保证表情的解耦和控制。在多阶段生成过程中,逐步提高几何体和纹理的分辨率,以生成高细节的模型。使用了Score Distillation Sampling (SDS)损失函数来优化3D模型,使其与2D扩散模型的先验知识对齐。
🖼️ 关键图片
📊 实验亮点
ID-to-3D在身份一致性和高质量纹理及几何体生成方面取得了显著成果。该方法能够从单张图像生成具有高度细节的3D人头模型,并且能够泛化到未见过的3D身份。与现有方法相比,ID-to-3D在生成质量和身份一致性方面均有明显提升,且无需依赖大型3D数据集。
🎯 应用场景
ID-to-3D技术可广泛应用于游戏、虚拟现实、远程呈现等领域。它可以根据用户提供的单张照片快速生成个性化的3D头像,用于游戏角色定制、虚拟形象创建和远程会议等场景。该技术还可以用于创建数字替身,实现更加逼真和个性化的虚拟交互体验。未来,该技术有望应用于数字资产创作、电影特效制作等领域。
📄 摘要(原文)
We propose ID-to-3D, a method to generate identity- and text-guided 3D human heads with disentangled expressions, starting from even a single casually captured in-the-wild image of a subject. The foundation of our approach is anchored in compositionality, alongside the use of task-specific 2D diffusion models as priors for optimization. First, we extend a foundational model with a lightweight expression-aware and ID-aware architecture, and create 2D priors for geometry and texture generation, via fine-tuning only 0.2% of its available training parameters. Then, we jointly leverage a neural parametric representation for the expressions of each subject and a multi-stage generation of highly detailed geometry and albedo texture. This combination of strong face identity embeddings and our neural representation enables accurate reconstruction of not only facial features but also accessories and hair and can be meshed to provide render-ready assets for gaming and telepresence. Our results achieve an unprecedented level of identity-consistent and high-quality texture and geometry generation, generalizing to a ``world'' of unseen 3D identities, without relying on large 3D captured datasets of human assets.