DiffGS: Functional Gaussian Splatting Diffusion

📄 arXiv: 2410.19657v2 📥 PDF

作者: Junsheng Zhou, Weiqi Zhang, Yu-Shen Liu

分类: cs.CV

发布日期: 2024-10-25 (更新: 2024-10-30)

备注: Accepted by NeurIPS 2024. Project page: https://junshengzhou.github.io/DiffGS


💡 一句话要点

提出DiffGS,一种基于潜在扩散模型的功能高斯溅射生成方法,实现高质量快速渲染。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 扩散模型 3D生成 神经渲染 函数表示

📋 核心要点

  1. 现有高斯溅射生成方法难以处理其离散性和非结构化特性,限制了生成质量和灵活性。
  2. DiffGS通过解耦高斯溅射的概率、颜色和变换,将其表示为连续函数,从而利用扩散模型进行生成。
  3. 实验表明,DiffGS在无条件和有条件生成任务中均表现出色,能够生成高质量的高斯基元。

📝 摘要(中文)

本文提出DiffGS,一种基于潜在扩散模型的通用高斯生成器。DiffGS是一个强大而高效的3D生成模型,能够生成任意数量的高斯基元,并通过光栅化实现高保真渲染。核心思想是通过三个新颖的函数以解耦的方式表示高斯溅射,分别建模高斯概率、颜色和变换。通过对3DGS的解耦,我们用连续的高斯溅射函数表示离散和非结构化的3DGS,然后训练一个潜在扩散模型,以无条件和有条件的方式生成这些高斯溅射函数。同时,我们引入了一种离散化算法,通过八叉树引导的采样和优化,从生成的函数中提取任意数量的高斯。我们探索了DiffGS在各种任务中的应用,包括无条件生成、基于文本、图像和部分3DGS的有条件生成,以及点到高斯的生成。我们相信DiffGS为灵活地建模和生成高斯溅射提供了一个新的方向。

🔬 方法详解

问题定义:现有3D高斯溅射(3DGS)生成方法面临的挑战在于3DGS的离散性和非结构化特性。直接生成离散的高斯参数非常困难,导致生成质量受限,并且难以控制生成过程。现有方法难以灵活地生成任意数量的高斯基元,限制了其在各种应用场景中的适用性。

核心思路:DiffGS的核心思路是将离散的3DGS表示为连续的函数,从而能够利用连续空间的扩散模型进行生成。通过解耦高斯溅射的概率、颜色和变换,分别用三个函数来表示,使得扩散模型可以学习这些函数的分布。这种解耦表示使得生成过程更加可控,并且可以生成任意数量的高斯基元。

技术框架:DiffGS的整体框架包括以下几个主要阶段:1) 高斯溅射函数表示:将离散的3DGS参数解耦为三个连续函数,分别表示高斯概率、颜色和变换。2) 潜在扩散模型训练:训练一个潜在扩散模型,以生成这些高斯溅射函数。可以进行无条件生成,也可以根据文本、图像或部分3DGS进行条件生成。3) 高斯提取:通过一种离散化算法,从生成的函数中提取任意数量的高斯基元。该算法使用八叉树引导的采样和优化,以确保提取的高斯能够很好地表示生成的函数。

关键创新:DiffGS的关键创新在于将离散的3DGS表示为连续的函数,从而能够利用强大的扩散模型进行生成。这种表示方式的解耦性使得生成过程更加可控,并且可以生成任意数量的高斯基元。此外,DiffGS还提出了一种新的离散化算法,可以有效地从生成的函数中提取高斯。与现有方法相比,DiffGS能够生成更高质量、更灵活的3DGS。

关键设计:在函数表示方面,论文具体定义了如何将高斯分布的参数(如均值、方差)映射到连续函数上。扩散模型采用标准的U-Net结构,并针对高斯溅射函数的特点进行了优化。离散化算法使用八叉树来引导采样,并使用梯度下降法优化提取的高斯参数,以最小化重构误差。损失函数包括扩散模型的标准损失函数,以及用于优化高斯参数的重构损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffGS在多个任务上取得了显著成果。在无条件生成任务中,DiffGS能够生成高质量、多样化的3D高斯溅射场景。在条件生成任务中,DiffGS能够根据文本、图像或部分3DGS生成相应的3D模型,展现了其强大的控制能力。实验结果表明,DiffGS生成的3D模型在视觉质量和渲染速度方面均优于现有方法。

🎯 应用场景

DiffGS具有广泛的应用前景,包括3D内容生成、虚拟现实、增强现实、游戏开发等领域。它可以用于生成逼真的3D场景和物体,也可以用于编辑和修改现有的3D模型。DiffGS还可以用于将2D图像或文本转换为3D模型,从而简化3D内容创作流程。未来,DiffGS有望成为3D内容创作的重要工具。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has shown convincing performance in rendering speed and fidelity, yet the generation of Gaussian Splatting remains a challenge due to its discreteness and unstructured nature. In this work, we propose DiffGS, a general Gaussian generator based on latent diffusion models. DiffGS is a powerful and efficient 3D generative model which is capable of generating Gaussian primitives at arbitrary numbers for high-fidelity rendering with rasterization. The key insight is to represent Gaussian Splatting in a disentangled manner via three novel functions to model Gaussian probabilities, colors and transforms. Through the novel disentanglement of 3DGS, we represent the discrete and unstructured 3DGS with continuous Gaussian Splatting functions, where we then train a latent diffusion model with the target of generating these Gaussian Splatting functions both unconditionally and conditionally. Meanwhile, we introduce a discretization algorithm to extract Gaussians at arbitrary numbers from the generated functions via octree-guided sampling and optimization. We explore DiffGS for various tasks, including unconditional generation, conditional generation from text, image, and partial 3DGS, as well as Point-to-Gaussian generation. We believe that DiffGS provides a new direction for flexibly modeling and generating Gaussian Splatting.