GAS: Generative Avatar Synthesis from a Single Image
作者: Yixing Lu, Junting Dong, Youngjoong Kwon, Qin Zhao, Bo Dai, Fernando De la Torre
分类: cs.CV
发布日期: 2025-02-10 (更新: 2025-08-03)
备注: ICCV 2025; Project Page: https://humansensinglab.github.io/GAS/
💡 一句话要点
提出GAS框架,从单张图像生成视角一致且时序连贯的生成式Avatar
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 生成式Avatar 单图像重建 NeRF 扩散模型 3D人体建模 多视角一致性 时序连贯性
📋 核心要点
- 现有方法依赖稀疏人体模板,导致生成Avatar在多视角和时间上不一致,是核心问题。
- GAS框架结合回归式3D重建和扩散模型生成能力,利用广义NeRF提供全面条件信息。
- 实验结果表明,该方法具有卓越的泛化能力,在不同数据集上均表现出有效性。
📝 摘要(中文)
本文提出了一个统一且可泛化的框架,用于从单张图像合成视角一致和时序连贯的Avatar,旨在解决单图像Avatar生成这一具有挑战性的任务。现有的基于扩散模型的方法通常以稀疏的人体模板(例如,深度图或法线贴图)为条件,这会导致多视角和时间上的不一致性,因为这些信号与对象的真实外观不匹配。我们的方法通过结合基于回归的3D人体重建的重建能力与扩散模型的生成能力来弥合这一差距。首先,通过广义NeRF进行初始3D人体重建,提供全面的条件信息,确保高质量的合成,忠实于参考外观和结构。随后,从广义NeRF导出的几何和外观作为基于视频的扩散模型的输入。这种策略性集成对于在整个Avatar生成过程中强制执行多视角和时间一致性至关重要。经验结果强调了我们提出的方法的卓越泛化能力,证明了其在各种领域内和领域外真实数据集上的有效性。
🔬 方法详解
问题定义:现有单图像Avatar生成方法依赖于稀疏的人体模板(如深度图、法线图),这些模板与真实外观存在偏差,导致生成结果在多视角和时间上不一致。因此,如何从单张图像生成视角一致且时序连贯的Avatar是一个关键问题。
核心思路:GAS框架的核心思路是将基于回归的3D人体重建与扩散模型的生成能力相结合。首先利用3D重建提供精确的几何和外观信息,作为扩散模型的条件,从而保证生成结果的质量和一致性。这样既利用了3D重建的精确性,又发挥了扩散模型的生成能力。
技术框架:GAS框架包含两个主要阶段:1) 基于广义NeRF的3D人体重建阶段:从单张图像重建出初始的3D人体模型,包括几何和外观信息。这个阶段的目标是提供高质量的条件信息。2) 基于视频的扩散模型生成阶段:将重建的3D几何和外观作为条件输入到扩散模型中,生成最终的Avatar视频。该阶段的目标是生成视角一致且时序连贯的视频。
关键创新:GAS框架的关键创新在于将3D重建和扩散模型有机结合,利用3D重建提供精确的条件信息,克服了传统方法中稀疏模板带来的问题。此外,使用广义NeRF进行3D重建,可以更好地处理各种姿态和外观变化。与现有方法相比,GAS框架能够生成更高质量、更一致的Avatar。
关键设计:在3D重建阶段,使用了广义NeRF,允许从单张图像进行高质量的3D重建。在扩散模型阶段,使用了基于视频的扩散模型,以保证生成结果的时序连贯性。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了GAS框架的有效性和泛化能力。实验结果表明,该方法在领域内和领域外的数据集上均取得了优于现有方法的性能。具体的性能数据和提升幅度需要在论文中查找(未知),但摘要强调了其在多视角和时间一致性方面的优势。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏、社交媒体等领域。例如,用户可以通过上传一张自拍照,快速生成自己的虚拟化身,用于在线会议、虚拟社交等场景。该技术还可以用于创建逼真的数字替身,用于电影、动画等制作中,具有重要的商业价值和应用前景。
📄 摘要(原文)
We present a unified and generalizable framework for synthesizing view-consistent and temporally coherent avatars from a single image, addressing the challenging task of single-image avatar generation. Existing diffusion-based methods often condition on sparse human templates (e.g., depth or normal maps), which leads to multi-view and temporal inconsistencies due to the mismatch between these signals and the true appearance of the subject. Our approach bridges this gap by combining the reconstruction power of regression-based 3D human reconstruction with the generative capabilities of a diffusion model. In a first step, an initial 3D reconstructed human through a generalized NeRF provides comprehensive conditioning, ensuring high-quality synthesis faithful to the reference appearance and structure. Subsequently, the derived geometry and appearance from the generalized NeRF serve as input to a video-based diffusion model. This strategic integration is pivotal for enforcing both multi-view and temporal consistency throughout the avatar's generation. Empirical results underscore the superior generalization ability of our proposed method, demonstrating its effectiveness across diverse in-domain and out-of-domain in-the-wild datasets.