DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping

📄 arXiv: 2409.05099v4 📥 PDF

作者: Zeyu Cai, Duotun Wang, Yixun Liang, Zhijing Shao, Ying-Cong Chen, Xiaohang Zhan, Zeyu Wang

分类: cs.CV, cs.GR

发布日期: 2024-09-08 (更新: 2024-09-19)

备注: 15 pages, 14 figures


💡 一句话要点

DreamMapping:通过变分分布映射实现高保真文本到3D生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 变分分布映射 扩散模型 高斯溅射 Score Distillation Sampling

📋 核心要点

  1. 现有基于SDS的文本到3D生成方法存在颜色过饱和、过度平滑等问题,影响生成质量。
  2. 论文提出变分分布映射(VDM)策略,将渲染图像视为扩散过程的退化实例,加速分布建模。
  3. 引入时间步相关的分布系数退火(DCA)进一步提升蒸馏精度,结合高斯溅射实现高效高质量的3D生成。

📝 摘要(中文)

Score Distillation Sampling (SDS) 已成为文本到3D生成的主流技术,它通过从文本到2D的引导中提取视角相关的知识来创建3D内容。然而,SDS方法经常表现出过饱和的颜色和过度平滑等缺点。本文深入分析了SDS,并改进了其公式,发现其核心设计是建模渲染图像的分布。基于此,我们提出了一种名为变分分布映射(VDM)的新策略,该策略通过将渲染图像视为扩散生成过程的退化实例,从而加速了分布建模过程。这种特殊设计能够通过跳过扩散U-Net中雅可比矩阵的计算来高效地训练变分分布。我们还引入了时间步相关的分布系数退火(DCA)来进一步提高蒸馏精度。利用VDM和DCA,我们使用高斯溅射作为3D表示,并构建了一个文本到3D生成的框架。大量的实验和评估表明,VDM和DCA能够以优化的效率生成高保真和逼真的资产。

🔬 方法详解

问题定义:现有基于Score Distillation Sampling (SDS) 的文本到3D生成方法,虽然能够从文本引导生成3D内容,但普遍存在生成结果颜色过饱和以及表面过度平滑的问题,导致生成质量下降,难以满足高保真度的需求。这些问题源于SDS在建模渲染图像分布时的不足。

核心思路:论文的核心思路是将渲染图像视为从扩散模型生成的图像经过退化后的结果。通过这种视角,可以利用变分推断的方法,直接学习渲染图像的分布,而无需像传统SDS那样显式地计算雅可比矩阵。这种方法能够更高效地建模渲染图像的分布,从而生成更高质量的3D模型。

技术框架:整体框架包括以下几个主要步骤:1) 使用文本提示生成初始的3D表示(高斯溅射)。2) 从不同视角渲染3D表示,得到一系列2D图像。3) 使用VDM方法,将渲染的2D图像与扩散模型生成的图像进行对齐,优化3D表示。4) 使用DCA策略,在训练过程中调整分布系数,进一步提高蒸馏精度。通过迭代渲染和优化,最终得到高质量的3D模型。

关键创新:论文的关键创新在于提出了变分分布映射(VDM)策略。VDM通过将渲染图像视为扩散过程的退化实例,避免了直接计算雅可比矩阵的复杂性,从而实现了更高效的分布建模。此外,时间步相关的分布系数退火(DCA)策略也进一步提高了蒸馏精度,使得生成的3D模型更加逼真。

关键设计:VDM的关键设计在于使用变分推断来学习渲染图像的分布。具体来说,论文定义了一个变分分布,用于近似渲染图像的真实分布。通过最小化变分分布与真实分布之间的KL散度,可以优化3D表示,使其生成的渲染图像更接近真实图像。DCA的关键设计在于根据时间步调整分布系数,使得在训练初期更加注重全局结构,而在训练后期更加注重细节纹理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VDM和DCA策略能够显著提高文本到3D生成的质量。与现有的SDS方法相比,该方法生成的3D模型具有更高的保真度和更逼真的细节。在主观评价和客观指标上均取得了显著提升,尤其是在颜色饱和度和表面平滑度方面有明显改善。具体性能数据未知,但论文强调了优化效率的提升。

🎯 应用场景

该研究成果可广泛应用于游戏开发、虚拟现实、增强现实、数字内容创作等领域。通过文本描述快速生成高质量3D模型,可以显著降低3D内容制作的成本和时间,加速相关产业的发展。未来,该技术有望应用于个性化定制、产品设计、教育娱乐等更多领域。

📄 摘要(原文)

Score Distillation Sampling (SDS) has emerged as a prevalent technique for text-to-3D generation, enabling 3D content creation by distilling view-dependent information from text-to-2D guidance. However, they frequently exhibit shortcomings such as over-saturated color and excess smoothness. In this paper, we conduct a thorough analysis of SDS and refine its formulation, finding that the core design is to model the distribution of rendered images. Following this insight, we introduce a novel strategy called Variational Distribution Mapping (VDM), which expedites the distribution modeling process by regarding the rendered images as instances of degradation from diffusion-based generation. This special design enables the efficient training of variational distribution by skipping the calculations of the Jacobians in the diffusion U-Net. We also introduce timestep-dependent Distribution Coefficient Annealing (DCA) to further improve distilling precision. Leveraging VDM and DCA, we use Gaussian Splatting as the 3D representation and build a text-to-3D generation framework. Extensive experiments and evaluations demonstrate the capability of VDM and DCA to generate high-fidelity and realistic assets with optimization efficiency.