GradeADreamer: Enhanced Text-to-3D Generation Using Gaussian Splatting and Multi-View Diffusion

📄 arXiv: 2406.09850v1 📥 PDF

作者: Trapoom Ukarapol, Kevin Pruvost

分类: cs.CV

发布日期: 2024-06-14

备注: Code: https://github.com/trapoom555/GradeADreamer

🔗 代码/项目: GITHUB


💡 一句话要点

GradeADreamer:利用高斯溅射和多视角扩散增强文本到3D生成效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 高斯溅射 多视角扩散模型 StableDiffusion Janus多面问题

📋 核心要点

  1. 文本到3D生成面临Janus多面问题,且生成高质量资产耗时较长。
  2. GradeADreamer利用MVDream生成高斯溅射先验,再用StableDiffusion细化几何和纹理。
  3. 实验表明,该方法有效缓解Janus问题,用户偏好度优于现有方法,且生成时间短。

📝 摘要(中文)

本文提出了一种名为GradeADreamer的三阶段训练流程,旨在解决文本到3D生成中常见的Janus多面问题以及生成高质量资产所需时间过长的问题。该流程仅使用单张RTX 3090 GPU,即可在30分钟内生成高质量的3D资产。该方法首先利用多视角扩散模型MVDream生成高斯溅射作为先验,然后使用StableDiffusion细化几何形状和纹理。实验结果表明,该方法显著缓解了Janus多面问题,并在用户偏好排名上优于现有最佳方法。

🔬 方法详解

问题定义:文本到3D生成旨在根据文本描述自动创建3D模型。现有方法存在两个主要痛点:一是Janus多面问题,即生成的3D模型在不同视角下出现多个不一致的面;二是生成高质量3D资产需要大量的计算资源和时间,限制了其应用范围。

核心思路:GradeADreamer的核心思路是利用多视角扩散模型生成高质量的3D形状先验,并结合图像扩散模型进行纹理和几何细节的细化。通过这种两阶段的方法,可以有效地约束3D模型的形状,减少Janus多面问题的发生,并加速生成过程。

技术框架:GradeADreamer包含三个主要阶段:1) 使用MVDream生成高斯溅射(Gaussian Splats)作为3D形状的先验;2) 使用StableDiffusion对高斯溅射的几何形状进行优化,使其更符合文本描述;3) 使用StableDiffusion对高斯溅射的纹理进行优化,生成高质量的3D模型。

关键创新:GradeADreamer的关键创新在于将多视角扩散模型和图像扩散模型相结合,用于文本到3D生成。MVDream能够生成具有多视角一致性的3D形状先验,有效地缓解了Janus多面问题。同时,利用StableDiffusion进行几何和纹理的细化,可以生成高质量的3D模型。

关键设计:在第一阶段,MVDream被训练成能够根据文本提示生成高斯溅射。高斯溅射是一种高效的3D表示方法,可以快速渲染和优化。在第二和第三阶段,StableDiffusion被用于优化高斯溅射的几何形状和纹理。损失函数包括扩散损失和正则化损失,以保证生成模型的质量和稳定性。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GradeADreamer在缓解Janus多面问题方面表现出色,显著优于现有方法。用户偏好度调查显示,GradeADreamer生成的3D模型在视觉质量和一致性方面更受用户青睐。此外,该方法仅使用单张RTX 3090 GPU,即可在30分钟内生成高质量的3D资产,大大缩短了生成时间。

🎯 应用场景

GradeADreamer在游戏开发、虚拟现实、增强现实、电商展示等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型,降低了3D内容创作的门槛,加速了相关应用的发展。未来,该技术有望应用于个性化定制、智能设计等领域,为用户提供更加便捷和高效的3D内容创作体验。

📄 摘要(原文)

Text-to-3D generation has shown promising results, yet common challenges such as the Multi-face Janus problem and extended generation time for high-quality assets. In this paper, we address these issues by introducing a novel three-stage training pipeline called GradeADreamer. This pipeline is capable of producing high-quality assets with a total generation time of under 30 minutes using only a single RTX 3090 GPU. Our proposed method employs a Multi-view Diffusion Model, MVDream, to generate Gaussian Splats as a prior, followed by refining geometry and texture using StableDiffusion. Experimental results demonstrate that our approach significantly mitigates the Multi-face Janus problem and achieves the highest average user preference ranking compared to previous state-of-the-art methods. The project code is available at https://github.com/trapoom555/GradeADreamer.