PlanarGS: High-Fidelity Indoor 3D Gaussian Splatting Guided by Vision-Language Planar Priors

📄 arXiv: 2510.23930v1 📥 PDF

作者: Xirui Jin, Renbiao Jin, Boying Li, Danping Zou, Wenxian Yu

分类: cs.CV

发布日期: 2025-10-27

备注: Accepted by NeurIPS 2025. Project page: https://planargs.github.io


💡 一句话要点

PlanarGS:利用视觉-语言平面先验实现高保真室内3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 室内场景重建 视觉-语言模型 平面先验 几何先验

📋 核心要点

  1. 室内场景中普遍存在的大面积低纹理区域使得传统3DGS方法难以重建高保真几何结构。
  2. PlanarGS利用视觉-语言模型提取平面先验,并结合几何先验指导3D高斯优化,从而提升重建质量。
  3. 实验表明,PlanarGS在室内场景重建任务上显著优于现有方法,能够生成更准确、更精细的3D表面。

📝 摘要(中文)

三维高斯溅射(3DGS)最近作为一种用于新视角合成的有效表示方法出现,实现了令人印象深刻的视觉质量。然而,在以大型和低纹理区域为主的场景中,这在室内环境中很常见,用于优化3DGS的光度损失会产生模糊的几何形状,并且无法恢复高保真3D表面。为了克服这一限制,我们引入了PlanarGS,这是一个基于3DGS的框架,专为室内场景重建而设计。具体来说,我们设计了一个语言提示平面先验(LP3)的流程,该流程采用预训练的视觉-语言分割模型,并通过交叉视角融合和几何先验检查来细化其区域提议。我们框架中的3D高斯使用两个额外的项进行优化:一个平面先验监督项,用于强制平面一致性;以及一个几何先验监督项,用于引导高斯朝向深度和法线线索。我们在标准室内基准上进行了广泛的实验。结果表明,PlanarGS重建了准确而详细的3D表面,始终大幅优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决室内场景三维重建中,由于场景纹理信息不足,导致传统3D高斯溅射方法难以准确恢复几何结构的问题。现有方法在处理大面积低纹理区域时,容易产生模糊的几何形状,无法达到高保真重建效果。

核心思路:论文的核心思路是引入平面先验和几何先验来约束3D高斯溅射的优化过程。通过视觉-语言模型提取场景中的平面信息,并利用深度和法线等几何线索,引导3D高斯向真实的几何表面收敛,从而提高重建的准确性和细节程度。

技术框架:PlanarGS框架主要包含以下几个阶段:1) 语言提示平面先验(LP3):利用预训练的视觉-语言分割模型,结合交叉视角融合和几何先验,提取并细化场景中的平面区域提议。2) 3D高斯初始化:使用SfM或SLAM等方法初始化3D高斯。3) 3D高斯优化:在传统光度损失的基础上,增加平面先验监督项和几何先验监督项,共同优化3D高斯参数。

关键创新:论文的关键创新在于将视觉-语言模型提取的平面先验与几何先验相结合,用于指导3D高斯溅射的优化。与传统方法仅依赖光度损失不同,PlanarGS能够有效利用场景中的结构化信息,从而提高重建的鲁棒性和准确性。

关键设计:1) 平面先验监督项:通过最小化3D高斯到对应平面区域的距离,强制高斯满足平面一致性。2) 几何先验监督项:利用深度和法线信息,引导3D高斯向真实的几何表面收敛。3) 视觉-语言模型选择:选择具有良好分割性能和泛化能力的预训练视觉-语言模型,例如CLIP或ALIGN。4) 交叉视角融合:利用多视角信息,提高平面区域提议的准确性和完整性。

📊 实验亮点

PlanarGS在标准室内基准测试中取得了显著的性能提升,大幅优于现有方法。实验结果表明,PlanarGS能够重建出更准确、更精细的3D表面,尤其是在大面积低纹理区域,其重建效果明显优于传统3DGS方法。具体性能提升数据在原文中有详细展示。

🎯 应用场景

PlanarGS技术可广泛应用于室内场景的三维重建、虚拟现实、增强现实、机器人导航等领域。例如,可以用于构建高精度的室内地图,为机器人提供可靠的环境感知信息;也可以用于创建逼真的虚拟室内环境,提升VR/AR应用的沉浸感和交互性。该技术在智能家居、智慧城市等领域具有重要的应用价值。

📄 摘要(原文)

Three-dimensional Gaussian Splatting (3DGS) has recently emerged as an efficient representation for novel-view synthesis, achieving impressive visual quality. However, in scenes dominated by large and low-texture regions, common in indoor environments, the photometric loss used to optimize 3DGS yields ambiguous geometry and fails to recover high-fidelity 3D surfaces. To overcome this limitation, we introduce PlanarGS, a 3DGS-based framework tailored for indoor scene reconstruction. Specifically, we design a pipeline for Language-Prompted Planar Priors (LP3) that employs a pretrained vision-language segmentation model and refines its region proposals via cross-view fusion and inspection with geometric priors. 3D Gaussians in our framework are optimized with two additional terms: a planar prior supervision term that enforces planar consistency, and a geometric prior supervision term that steers the Gaussians toward the depth and normal cues. We have conducted extensive experiments on standard indoor benchmarks. The results show that PlanarGS reconstructs accurate and detailed 3D surfaces, consistently outperforming state-of-the-art methods by a large margin. Project page: https://planargs.github.io