HumanGif: Single-View Human Diffusion with Generative Prior
作者: Shoukang Hu, Takuya Narihira, Kazumi Fukuda, Ryosuke Sawata, Takashi Shibuya, Yuki Mitsufuji
分类: cs.CV
发布日期: 2025-02-17 (更新: 2025-06-29)
备注: Project page: https://skhu101.github.io/HumanGif/
💡 一句话要点
HumanGif:利用生成先验的单视图人像扩散模型,实现逼真的人体动画生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 人像动画生成 单视图重建 扩散模型 NeRF 生成先验 新视角合成 姿态合成
📋 核心要点
- 单视图人像动画生成面临信息不足的挑战,难以保证视角一致性和时间连贯性。
- HumanGif利用扩散模型的生成先验,结合Human NeRF模块学习空间对齐特征,实现高质量的视角和姿态合成。
- 实验表明,HumanGif在多个数据集上取得了优异的性能,展现了良好的泛化能力和感知质量。
📝 摘要(中文)
本文提出HumanGif,一种基于生成先验的单视图人像扩散模型,旨在解决单张图像生成视角一致、时间连贯的逼真人像动画这一难题。该方法将单视图3D人体新视角和姿态合成问题建模为单视图条件的人像扩散过程,并利用基础扩散模型的生成先验来补充缺失的信息。为了确保精细且一致的新视角和姿态合成,HumanGif引入了Human NeRF模块,从输入图像中学习空间对齐的特征,隐式地捕捉相对相机和人体姿态的变换。此外,在优化过程中引入图像级别的损失,以弥合扩散模型中潜在空间和图像空间之间的差距。在RenderPeople、DNA-Rendering、THuman 2.1和TikTok数据集上的大量实验表明,HumanGif实现了最佳的感知性能,并且对于新视角和姿态合成具有更好的泛化能力。
🔬 方法详解
问题定义:现有方法难以仅从单张图像生成视角一致且时间连贯的逼真人像动画。单视图输入信息有限,导致新视角和姿态合成结果不真实,缺乏细节,且容易出现时序上的不连贯性。现有方法难以充分利用单张图像中的信息,并有效地补充缺失的信息,从而限制了生成人像动画的质量。
核心思路:HumanGif的核心思路是将单视图人像动画生成问题转化为一个单视图条件下的扩散过程,并利用预训练的扩散模型作为生成先验,来补充单视图输入中缺失的信息。通过结合Human NeRF模块,学习输入图像中的空间对齐特征,从而隐式地捕捉相机和人体姿态的变换关系,保证生成结果的视角一致性和姿态准确性。
技术框架:HumanGif的整体框架包含以下几个主要模块:1) 单视图图像输入;2) Human NeRF模块,用于提取空间对齐的特征;3) 单视图条件扩散模型,利用生成先验进行新视角和姿态合成;4) 图像级别损失,用于优化潜在空间和图像空间之间的映射关系。整个流程首先通过Human NeRF模块提取图像特征,然后将这些特征作为条件输入到扩散模型中,最后通过图像级别损失进行优化。
关键创新:HumanGif的关键创新在于:1) 将单视图人像动画生成问题建模为单视图条件扩散过程,充分利用了预训练扩散模型的生成先验;2) 引入Human NeRF模块,学习空间对齐的特征,隐式地捕捉相机和人体姿态的变换关系;3) 提出了图像级别的损失函数,弥合了扩散模型中潜在空间和图像空间之间的差距。与现有方法相比,HumanGif能够更好地利用单视图图像中的信息,并生成更逼真、视角一致且时间连贯的人像动画。
关键设计:Human NeRF模块采用NeRF的结构,学习输入图像的空间特征表示。扩散模型采用U-Net结构,并以Human NeRF模块提取的特征作为条件输入。图像级别损失采用L1损失或L2损失,用于约束生成图像与真实图像之间的差异。具体的参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HumanGif在RenderPeople、DNA-Rendering、THuman 2.1和TikTok等数据集上取得了最佳的感知性能。相较于现有方法,HumanGif在视角一致性、时间连贯性和生成质量方面均有显著提升。具体的性能数据和提升幅度需要在论文全文中查找。
🎯 应用场景
HumanGif具有广泛的应用前景,例如虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建逼真的虚拟化身,生成个性化的动画内容,以及实现各种人机交互应用。该技术还可以应用于远程呈现、在线教育等领域,提升用户体验和互动性。未来,HumanGif有望成为数字内容创作的重要工具。
📄 摘要(原文)
Previous 3D human creation methods have made significant progress in synthesizing view-consistent and temporally aligned results from sparse-view images or monocular videos. However, it remains challenging to produce perpetually realistic, view-consistent, and temporally coherent human avatars from a single image, as limited information is available in the single-view input setting. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models to complement the missing information. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople, DNA-Rendering, THuman 2.1, and TikTok datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.