Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models

📄 arXiv: 2409.02851v1 📥 PDF

作者: Zhibin Liu, Haoye Dong, Aviral Chharia, Hefeng Wu

分类: cs.CV, cs.GR

发布日期: 2024-09-04

备注: 14 Pages, 8 figures, Project page: https://human-vdm.github.io/Human-VDM/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Human-VDM:利用视频扩散模型从单张图像生成高质量3D人体高斯溅射模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D人体生成 单图重建 视频扩散模型 高斯溅射 视角一致性

📋 核心要点

  1. 现有方法在单图生成3D人体时,难以保证多视角一致性,导致生成质量受限。
  2. Human-VDM利用视频扩散模型生成时间一致的视频,再通过高斯溅射实现高质量3D人体建模。
  3. 实验结果表明,Human-VDM在单图3D人体生成任务上,显著优于现有技术,提升了生成质量和数量。

📝 摘要(中文)

从单张RGB图像生成逼真的3D人体仍然是计算机视觉领域的一项挑战性任务,因为它需要精确地建模几何形状、高质量的纹理以及合理的未见部分。现有方法通常使用多视角扩散模型进行3D生成,但它们经常面临视角不一致的问题,这阻碍了高质量3D人体的生成。为了解决这个问题,我们提出Human-VDM,一种利用视频扩散模型从单张RGB图像生成3D人体的新方法。Human-VDM使用高斯溅射为3D人体生成提供时间上一致的视角。它由三个模块组成:视角一致的人体视频扩散模块、视频增强模块和高斯溅射模块。首先,将单张图像输入人体视频扩散模块以生成连贯的人体视频。接下来,视频增强模块应用超分辨率和视频插值来增强生成视频的纹理和几何平滑度。最后,3D人体高斯溅射模块在这些高分辨率和视角一致图像的指导下学习逼真的人体。实验表明,Human-VDM从单张图像实现了高质量的3D人体生成,在生成质量和数量上都优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决从单张RGB图像生成高质量3D人体的难题。现有方法,特别是基于多视角扩散模型的方法,在生成3D人体时常常面临视角不一致的问题,这导致生成的3D人体质量不高,细节不足,并且难以处理遮挡和未见区域。

核心思路:Human-VDM的核心思路是利用视频扩散模型生成时间上连贯且视角一致的人体视频,然后利用这些视频作为指导,通过高斯溅射技术来构建高质量的3D人体模型。这种方法避免了直接从单张图像推断3D结构,而是通过生成中间视频来提供更丰富的视角信息。

技术框架:Human-VDM包含三个主要模块:1) 视角一致的人体视频扩散模块:负责从单张输入图像生成一段连贯的人体视频。2) 视频增强模块:通过超分辨率和视频插值技术,提高生成视频的质量,增强纹理细节和几何平滑度。3) 3D人体高斯溅射模块:利用增强后的视频作为指导,学习3D高斯分布,从而构建最终的3D人体模型。整个流程是从单张图像到视频,再从视频到3D模型的转换。

关键创新:Human-VDM的关键创新在于将视频扩散模型引入到单图3D人体生成任务中。与直接使用多视角扩散模型不同,Human-VDM首先生成一个时间上连贯的视频,从而保证了视角的一致性。此外,视频增强模块进一步提升了视频质量,为后续的3D重建提供了更好的输入。

关键设计:在人体视频扩散模块中,使用了预训练的视频扩散模型,并针对人体数据进行了微调。视频增强模块采用了先进的超分辨率和插值算法。3D人体高斯溅射模块则使用了可微分渲染技术,允许通过梯度下降优化高斯分布的参数,从而更好地拟合输入视频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Human-VDM在单张图像3D人体生成任务上取得了显著的性能提升。实验结果表明,该方法在生成质量和数量上均优于现有技术。具体而言,Human-VDM能够生成更逼真、细节更丰富的3D人体模型,并且能够更好地处理遮挡和未见区域。项目主页提供了详细的实验结果和可视化展示。

🎯 应用场景

Human-VDM在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,生成高质量的3D角色模型,以及实现基于单张照片的3D人体重建。该技术还有助于提升人机交互的真实感和沉浸感,并为未来的数字内容创作提供新的可能性。

📄 摘要(原文)

Generating lifelike 3D humans from a single RGB image remains a challenging task in computer vision, as it requires accurate modeling of geometry, high-quality texture, and plausible unseen parts. Existing methods typically use multi-view diffusion models for 3D generation, but they often face inconsistent view issues, which hinder high-quality 3D human generation. To address this, we propose Human-VDM, a novel method for generating 3D human from a single RGB image using Video Diffusion Models. Human-VDM provides temporally consistent views for 3D human generation using Gaussian Splatting. It consists of three modules: a view-consistent human video diffusion module, a video augmentation module, and a Gaussian Splatting module. First, a single image is fed into a human video diffusion module to generate a coherent human video. Next, the video augmentation module applies super-resolution and video interpolation to enhance the textures and geometric smoothness of the generated video. Finally, the 3D Human Gaussian Splatting module learns lifelike humans under the guidance of these high-resolution and view-consistent images. Experiments demonstrate that Human-VDM achieves high-quality 3D human from a single image, outperforming state-of-the-art methods in both generation quality and quantity. Project page: https://human-vdm.github.io/Human-VDM/