GaussianGrow: Geometry-aware Gaussian Growing from 3D Point Clouds with Text Guidance

📄 arXiv: 2604.05721v1 📥 PDF

作者: Weiqi Zhang, Junsheng Zhou, Haotian Geng, Kanle Shi, Shenkun Xu, Yi Fang, Yu-Shen Liu

分类: cs.CV

发布日期: 2026-04-07

备注: Accepted by CVPR 2026. Project page: https://weiqi-zhang.github.io/GaussianGrow

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GaussianGrow:提出几何感知的高斯增长方法,从点云生成高质量3D高斯模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 点云处理 文本引导生成 多视角扩散模型 几何感知 3D重建 扩散模型 高斯增长

📋 核心要点

  1. 现有方法依赖不可靠的几何估计,导致3D高斯模型生成效果不佳,缺乏有效的几何先验。
  2. GaussianGrow通过学习从3D点云增长高斯模型,自然地强制执行几何精度,并利用文本引导的多视角扩散模型进行监督。
  3. 实验表明,GaussianGrow在文本引导的3D高斯生成任务中,从合成和真实扫描点云均能生成高质量结果。

📝 摘要(中文)

3D高斯溅射在渲染效率和质量方面表现出色,但如何在缺乏几何先验的情况下生成3D高斯模型仍然是一个挑战。现有方法探索预测点图作为几何参考来推断高斯基元,但不可靠的几何估计可能导致生成效果不佳。本文提出GaussianGrow,一种通过学习从易于获取的3D点云中增长高斯模型的新方法,从而在生成过程中自然地强制执行几何精度。具体来说,设计了一种文本引导的高斯增长方案,利用多视角扩散模型从输入点云合成一致的外观以进行监督。为了减轻融合相邻视图引起的伪影,约束在不同视图的重叠区域中识别的非预设相机姿势处生成的新视角。为了完成难以观察的区域,提出通过观察点云中最大的未增长区域并使用预训练的2D扩散模型对渲染视图进行修复来迭代地检测相机姿势。该过程持续到生成完整的高斯模型。在从合成甚至真实扫描点云进行文本引导的高斯生成方面对GaussianGrow进行了广泛的评估。

🔬 方法详解

问题定义:现有方法在从3D点云生成3D高斯模型时,依赖于预测点图作为几何参考,但这些预测的几何信息往往不准确,导致最终生成的高斯模型质量较差。核心问题在于如何有效地利用点云的几何信息,并避免引入额外的几何误差。

核心思路:GaussianGrow的核心思路是从易于获取的3D点云出发,通过学习逐步“增长”高斯模型。这种方法天然地利用了点云的几何信息,避免了直接预测几何信息可能带来的误差。同时,利用文本引导的多视角扩散模型来监督高斯模型的生成过程,保证生成结果与文本描述的一致性。

技术框架:GaussianGrow的整体框架包含以下几个主要阶段:1) 初始化:从输入的3D点云开始。2) 文本引导的多视角扩散:利用多视角扩散模型,根据文本描述,从不同的视角合成图像,作为监督信号。3) 高斯增长:根据合成的图像和点云信息,逐步增长高斯模型。4) 视角约束:为了减少多视角融合带来的伪影,对新视角的生成进行约束。5) 区域补全:对于难以观察到的区域,通过迭代地检测未增长区域,并使用2D扩散模型进行修复。

关键创新:GaussianGrow的关键创新在于其“增长”的思路,以及文本引导的多视角扩散监督。与直接预测几何信息的方法不同,GaussianGrow通过逐步增长的方式,将几何信息融入到高斯模型的生成过程中。同时,利用文本信息来引导生成过程,保证生成结果与文本描述的一致性。

关键设计:在文本引导的多视角扩散中,使用了预训练的扩散模型,并针对多视角一致性进行了微调。在区域补全阶段,设计了一种迭代的相机姿态检测方法,用于确定需要补全的区域。损失函数包括图像重建损失、文本一致性损失等,用于保证生成结果的质量和文本一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GaussianGrow在合成和真实扫描点云上的实验结果表明,该方法能够有效地生成高质量的3D高斯模型。与现有方法相比,GaussianGrow在几何精度和渲染质量方面均有显著提升。项目页面提供了详细的实验结果和可视化展示,进一步验证了GaussianGrow的有效性。

🎯 应用场景

GaussianGrow在3D内容生成领域具有广泛的应用前景,例如,可以用于根据文本描述生成3D模型,或者从扫描的点云数据中重建高质量的3D场景。该技术可以应用于游戏开发、虚拟现实、建筑设计等领域,提高3D内容生成的效率和质量,并降低对专业建模技能的需求。

📄 摘要(原文)

3D Gaussian Splatting has demonstrated superior performance in rendering efficiency and quality, yet the generation of 3D Gaussians still remains a challenge without proper geometric priors. Existing methods have explored predicting point maps as geometric references for inferring Gaussian primitives, while the unreliable estimated geometries may lead to poor generations. In this work, we introduce GaussianGrow, a novel approach that generates 3D Gaussians by learning to grow them from easily accessible 3D point clouds, naturally enforcing geometric accuracy in Gaussian generation. Specifically, we design a text-guided Gaussian growing scheme that leverages a multi-view diffusion model to synthesize consistent appearances from input point clouds for supervision. To mitigate artifacts caused by fusing neighboring views, we constrain novel views generated at non-preset camera poses identified in overlapping regions across different views. For completing the hard-to-observe regions, we propose to iteratively detect the camera pose by observing the largest un-grown regions in point clouds and inpainting them by inpainting the rendered view with a pretrained 2D diffusion model. The process continues until complete Gaussians are generated. We extensively evaluate GaussianGrow on text-guided Gaussian generation from synthetic and even real-scanned point clouds. Project Page: https://weiqi-zhang.github.io/GaussianGrow