GAS: Generative Avatar Synthesis from a Single Image

作者: Yixing Lu, Junting Dong, Youngjoong Kwon, Qin Zhao, Bo Dai, Fernando De la Torre

分类: cs.CV

发布日期: 2025-02-10 (更新: 2025-08-03)

备注: ICCV 2025; Project Page: https://humansensinglab.github.io/GAS/

💡 一句话要点

提出GAS框架，从单张图像生成视角一致且时序连贯的生成式Avatar

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 生成式Avatar 单图像重建 NeRF 扩散模型 3D人体建模 多视角一致性 时序连贯性

📋 核心要点

现有方法依赖稀疏人体模板，导致生成Avatar在多视角和时间上不一致，是核心问题。
GAS框架结合回归式3D重建和扩散模型生成能力，利用广义NeRF提供全面条件信息。
实验结果表明，该方法具有卓越的泛化能力，在不同数据集上均表现出有效性。

📝 摘要（中文）

本文提出了一个统一且可泛化的框架，用于从单张图像合成视角一致和时序连贯的Avatar，旨在解决单图像Avatar生成这一具有挑战性的任务。现有的基于扩散模型的方法通常以稀疏的人体模板（例如，深度图或法线贴图）为条件，这会导致多视角和时间上的不一致性，因为这些信号与对象的真实外观不匹配。我们的方法通过结合基于回归的3D人体重建的重建能力与扩散模型的生成能力来弥合这一差距。首先，通过广义NeRF进行初始3D人体重建，提供全面的条件信息，确保高质量的合成，忠实于参考外观和结构。随后，从广义NeRF导出的几何和外观作为基于视频的扩散模型的输入。这种策略性集成对于在整个Avatar生成过程中强制执行多视角和时间一致性至关重要。经验结果强调了我们提出的方法的卓越泛化能力，证明了其在各种领域内和领域外真实数据集上的有效性。

🔬 方法详解

问题定义：现有单图像Avatar生成方法依赖于稀疏的人体模板（如深度图、法线图），这些模板与真实外观存在偏差，导致生成结果在多视角和时间上不一致。因此，如何从单张图像生成视角一致且时序连贯的Avatar是一个关键问题。

核心思路：GAS框架的核心思路是将基于回归的3D人体重建与扩散模型的生成能力相结合。首先利用3D重建提供精确的几何和外观信息，作为扩散模型的条件，从而保证生成结果的质量和一致性。这样既利用了3D重建的精确性，又发挥了扩散模型的生成能力。

技术框架：GAS框架包含两个主要阶段：1) 基于广义NeRF的3D人体重建阶段：从单张图像重建出初始的3D人体模型，包括几何和外观信息。这个阶段的目标是提供高质量的条件信息。2) 基于视频的扩散模型生成阶段：将重建的3D几何和外观作为条件输入到扩散模型中，生成最终的Avatar视频。该阶段的目标是生成视角一致且时序连贯的视频。

关键创新：GAS框架的关键创新在于将3D重建和扩散模型有机结合，利用3D重建提供精确的条件信息，克服了传统方法中稀疏模板带来的问题。此外，使用广义NeRF进行3D重建，可以更好地处理各种姿态和外观变化。与现有方法相比，GAS框架能够生成更高质量、更一致的Avatar。

关键设计：在3D重建阶段，使用了广义NeRF，允许从单张图像进行高质量的3D重建。在扩散模型阶段，使用了基于视频的扩散模型，以保证生成结果的时序连贯性。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了GAS框架的有效性和泛化能力。实验结果表明，该方法在领域内和领域外的数据集上均取得了优于现有方法的性能。具体的性能数据和提升幅度需要在论文中查找（未知），但摘要强调了其在多视角和时间一致性方面的优势。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏、社交媒体等领域。例如，用户可以通过上传一张自拍照，快速生成自己的虚拟化身，用于在线会议、虚拟社交等场景。该技术还可以用于创建逼真的数字替身，用于电影、动画等制作中，具有重要的商业价值和应用前景。

📄 摘要（原文）

We present a unified and generalizable framework for synthesizing view-consistent and temporally coherent avatars from a single image, addressing the challenging task of single-image avatar generation. Existing diffusion-based methods often condition on sparse human templates (e.g., depth or normal maps), which leads to multi-view and temporal inconsistencies due to the mismatch between these signals and the true appearance of the subject. Our approach bridges this gap by combining the reconstruction power of regression-based 3D human reconstruction with the generative capabilities of a diffusion model. In a first step, an initial 3D reconstructed human through a generalized NeRF provides comprehensive conditioning, ensuring high-quality synthesis faithful to the reference appearance and structure. Subsequently, the derived geometry and appearance from the generalized NeRF serve as input to a video-based diffusion model. This strategic integration is pivotal for enforcing both multi-view and temporal consistency throughout the avatar's generation. Empirical results underscore the superior generalization ability of our proposed method, demonstrating its effectiveness across diverse in-domain and out-of-domain in-the-wild datasets.

GAS: Generative Avatar Synthesis from a Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理