HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting

📄 arXiv: 2506.04351v1 📥 PDF

作者: Maksym Ivashechkin, Oscar Mendez, Richard Bowden

分类: cs.CV

发布日期: 2025-06-04


💡 一句话要点

提出HuGeDiff以解决3D人类生成的控制与细节问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D人类生成 扩散模型 图像生成 点云处理 计算机视觉 虚拟现实 生成性AI

📋 核心要点

  1. 现有的3D人类生成方法在细节表现、真实感和可控性方面存在显著不足,尤其是在手部和面部的渲染上。
  2. 本文提出了一种弱监督的生成管道,通过图像扩散模型生成可控属性的图像数据集,并将其映射到3D点云。
  3. 实验结果显示,与现有方法相比,3D人类生成速度提升了多个数量级,文本提示对齐度和渲染质量显著改善。

📝 摘要(中文)

3D人类生成是计算机视觉和图形学中的重要问题,尽管生成性AI和渲染方法取得了进展,但从文本提示生成准确的3D人类仍然面临挑战。现有方法在细节、手部和面部的准确渲染、人类真实感及外观可控性方面存在不足。本文提出了一种弱监督管道,首先利用先进的图像扩散模型生成具有可控属性的逼真图像数据集,接着采用基于变换器的架构高效映射图像特征到3D点云,最后训练一个基于点云的扩散模型,显著提升了3D人类生成的速度、文本提示对齐度、真实感和渲染质量。代码和数据集将公开发布。

🔬 方法详解

问题定义:本文旨在解决从文本提示生成高质量3D人类模型的挑战,现有方法在细节、真实感和可控性方面存在不足,尤其是在手部和面部的表现上。

核心思路:提出一种弱监督的生成管道,首先生成具有可控属性的逼真图像数据集,然后通过变换器架构将图像特征映射到3D点云,最后训练一个基于点云的扩散模型。

技术框架:整体流程分为三个主要阶段:第一阶段使用图像扩散模型生成图像数据集,第二阶段通过变换器架构进行特征映射,第三阶段训练点云扩散模型以实现文本提示的条件生成。

关键创新:最重要的创新在于结合图像扩散模型与点云生成的双重框架,显著提升了生成的速度和质量,尤其是在细节和真实感方面。

关键设计:在模型设计中,采用了先进的损失函数以优化生成质量,并在变换器架构中引入了特定的参数设置,以提高特征映射的效率和准确性。

📊 实验亮点

实验结果表明,HuGeDiff在3D人类生成速度上相比现有方法提升了多个数量级,同时在文本提示对齐度和渲染质量上也有显著改善,展示了其在生成性AI领域的强大能力。

🎯 应用场景

该研究在计算机视觉、虚拟现实、游戏开发等领域具有广泛的应用潜力。通过生成高质量的3D人类模型,可以为动画制作、虚拟角色设计以及人机交互提供更真实的体验,推动相关技术的发展和应用。

📄 摘要(原文)

3D human generation is an important problem with a wide range of applications in computer vision and graphics. Despite recent progress in generative AI such as diffusion models or rendering methods like Neural Radiance Fields or Gaussian Splatting, controlling the generation of accurate 3D humans from text prompts remains an open challenge. Current methods struggle with fine detail, accurate rendering of hands and faces, human realism, and controlability over appearance. The lack of diversity, realism, and annotation in human image data also remains a challenge, hindering the development of a foundational 3D human model. We present a weakly supervised pipeline that tries to address these challenges. In the first step, we generate a photorealistic human image dataset with controllable attributes such as appearance, race, gender, etc using a state-of-the-art image diffusion model. Next, we propose an efficient mapping approach from image features to 3D point clouds using a transformer-based architecture. Finally, we close the loop by training a point-cloud diffusion model that is conditioned on the same text prompts used to generate the original samples. We demonstrate orders-of-magnitude speed-ups in 3D human generation compared to the state-of-the-art approaches, along with significantly improved text-prompt alignment, realism, and rendering quality. We will make the code and dataset available.