Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction

📄 arXiv: 2411.14384v5 📥 PDF

作者: Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Yulun Zhang, Xiaokang Yang, Zhe Lin, Alan Yuille

分类: cs.CV, cs.GR

发布日期: 2024-11-21 (更新: 2025-10-11)

备注: ICCV 2025; A novel one-stage 3DGS-based diffusion for 3D object generation and scene reconstruction from a single view in ~6 seconds

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

提出DiffusionGS,通过扩散模型直接生成3D高斯点云,实现快速单阶段图像到3D生成与重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D生成 扩散模型 高斯溅射 单视图重建 视角一致性

📋 核心要点

  1. 现有的前馈图像到3D方法依赖于2D多视角扩散模型,无法保证3D一致性,且易在视角变化时失效。
  2. DiffusionGS直接输出3D高斯点云,在扩散过程中强制视角一致性,从而提升生成结果的鲁棒性。
  3. 通过场景-物体混合训练策略,扩大了3D训练数据,显著提升了模型在物体和场景重建上的性能。

📝 摘要(中文)

本文提出了一种新颖的单阶段3D扩散模型DiffusionGS,用于从单视角进行物体生成和场景重建。DiffusionGS在每个时间步直接输出3D高斯点云,以增强视角一致性,并允许模型在任何方向的提示视角下稳健地生成,超越了以物体为中心的输入。此外,为了提高DiffusionGS的能力和泛化性,通过开发场景-物体混合训练策略来扩大3D训练数据。实验表明,与最先进的方法相比,DiffusionGS在物体和场景的PSNR/FID指标上分别提高了2.20 dB/23.25和1.34 dB/19.16,且无需深度估计器。此外,我们的方法速度提高了5倍以上(在A100 GPU上约为6秒)。

🔬 方法详解

问题定义:现有图像到3D生成方法主要依赖于2D多视角扩散模型,这些模型难以保证生成结果的3D一致性,尤其是在视角变化时容易出现崩溃。此外,这些方法主要针对以物体为中心的场景,泛化能力有限。现有方法通常需要深度估计器作为辅助,增加了计算复杂性。

核心思路:DiffusionGS的核心思路是在扩散过程中直接生成3D高斯点云,而不是依赖于2D图像的生成和后续的3D重建。通过在3D空间中进行扩散,可以自然地保证视角一致性,从而提高生成结果的鲁棒性。此外,通过混合场景和物体数据进行训练,可以提高模型的泛化能力。

技术框架:DiffusionGS采用单阶段的扩散模型架构。在每个扩散步骤中,模型接收输入图像,并预测3D高斯点云的噪声。通过逐步去噪,最终得到生成的3D场景。该框架避免了多阶段流程,实现了端到端的训练和快速推理。主要模块包括:扩散模型编码器、3D高斯点云生成器和扩散模型解码器。

关键创新:DiffusionGS的关键创新在于直接在3D空间中进行扩散,从而强制视角一致性。与传统的2D扩散模型相比,DiffusionGS避免了2D到3D的转换过程,从而提高了生成效率和质量。此外,场景-物体混合训练策略也是一个重要的创新,它提高了模型的泛化能力。

关键设计:DiffusionGS使用了一种基于高斯分布的3D表示方法,每个高斯分布由其中心位置、协方差矩阵和颜色组成。扩散模型采用U-Net架构,并针对3D高斯点云的生成进行了优化。损失函数包括扩散损失和高斯点云的重建损失。训练过程中,使用了数据增强技术,例如随机旋转和缩放,以提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiffusionGS在物体和场景生成任务上均取得了显著的性能提升。在物体生成方面,PSNR提高了2.20 dB,FID提高了23.25。在场景生成方面,PSNR提高了1.34 dB,FID提高了19.16。此外,DiffusionGS的推理速度比现有方法快5倍以上,在A100 GPU上只需约6秒即可完成生成。

🎯 应用场景

DiffusionGS在3D内容生成领域具有广泛的应用前景,例如虚拟现实、增强现实、游戏开发和机器人技术。它可以用于快速生成高质量的3D模型,从而加速内容创作流程。此外,DiffusionGS还可以用于场景重建,例如从单张图像重建室内场景或室外环境。未来,该技术有望应用于自动驾驶、三维地图构建等领域。

📄 摘要(原文)

Existing feedforward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric cases. In this paper, we propose a novel single-stage 3D diffusion model, DiffusionGS, for object generation and scene reconstruction from a single view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to enforce view consistency and allow the model to generate robustly given prompt views of any directions, beyond object-centric inputs. Plus, to improve the capability and generality of DiffusionGS, we scale up 3D training data by developing a scene-object mixed training strategy. Experiments show that DiffusionGS yields improvements of 2.20 dB/23.25 and 1.34 dB/19.16 in PSNR/FID for objects and scenes than the state-of-the-art methods, without depth estimator. Plus, our method enjoys over 5$\times$ faster speed ($\sim$6s on an A100 GPU). Our Project page at https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and interactive results. The code and models are publicly available at https://github.com/caiyuanhao1998/Open-DiffusionGS