GLS: Geometry-aware 3D Language Gaussian Splatting

📄 arXiv: 2411.18066v2 📥 PDF

作者: Jiaxiong Qiu, Liu Liu, Xinjie Wang, Tianwei Lin, Wei Sui, Zhizhong Su

分类: cs.CV

发布日期: 2024-11-27 (更新: 2025-06-30)

备注: Technical Report

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GLS:基于几何感知的3D语言高斯溅射,实现表面重建与开放词汇分割的统一框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 表面重建 开放词汇分割 几何感知 CLIP特征

📋 核心要点

  1. 现有3D高斯溅射方法在表面重建和开放词汇分割上表现出色,但仍存在清晰度和光滑度方面的提升空间。
  2. GLS框架利用表面法线先验指导深度优化,并结合CLIP特征和DEVA掩码增强分割效果,从而实现更精确的重建和分割。
  3. 实验结果表明,GLS在多个数据集上优于现有方法,证明了联合优化表面重建和开放词汇分割的有效性。

📝 摘要(中文)

本文提出GLS,一个基于3D高斯溅射(3DGS)的统一框架,用于3D表面重建和开放词汇分割。GLS通过提高清晰度和光滑度来扩展这两个领域。对于室内表面重建,我们引入表面法线先验作为几何线索来指导渲染法线,并使用法线误差来优化渲染深度。对于3D开放词汇分割,我们采用2D CLIP特征来指导实例特征并增强表面光滑度,然后利用DEVA掩码来保持其视图一致性。大量实验表明,联合优化表面重建和3D开放词汇分割的有效性,GLS在MuSHRoom、ScanNet++和LERF-OVS数据集上超越了每个任务的最新方法。

🔬 方法详解

问题定义:现有3D高斯溅射方法在室内场景的表面重建和开放词汇分割任务中,仍然面临着重建表面不够锐利、分割结果不够平滑的问题。尤其是在开放词汇分割任务中,如何有效利用先验知识来提升分割的准确性和一致性是一个挑战。

核心思路:GLS的核心思路是利用几何先验信息(表面法线)来指导表面重建,并结合2D CLIP特征和DEVA掩码来提升3D开放词汇分割的性能。通过联合优化表面重建和分割任务,实现相互促进,从而获得更优的结果。

技术框架:GLS框架主要包含两个分支:表面重建分支和开放词汇分割分支。表面重建分支利用表面法线先验来优化渲染深度,提高重建质量。开放词汇分割分支则利用2D CLIP特征来指导实例特征的学习,并使用DEVA掩码来保证分割结果的视图一致性。两个分支共享3D高斯溅射的底层表示,并通过联合损失函数进行优化。

关键创新:GLS的关键创新在于将几何先验信息(表面法线)融入到3D高斯溅射的优化过程中,并结合2D CLIP特征和DEVA掩码来提升开放词汇分割的性能。这种联合优化策略能够有效地提高表面重建的锐利度和分割结果的平滑度。

关键设计:在表面重建分支中,作者使用表面法线误差作为损失函数的一部分,引导渲染深度向更准确的方向优化。在开放词汇分割分支中,作者使用2D CLIP特征来初始化实例特征,并使用DEVA掩码来约束分割结果的视图一致性。此外,作者还设计了一个联合损失函数,将表面重建损失和分割损失结合起来,实现两个任务的协同优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GLS在MuSHRoom、ScanNet++和LERF-OVS数据集上进行了评估,实验结果表明,GLS在表面重建和开放词汇分割任务上均优于现有方法。例如,在ScanNet++数据集上,GLS在表面重建的精度和完整度方面均取得了显著提升,同时在开放词汇分割的IoU指标上也达到了领先水平。

🎯 应用场景

GLS框架在室内场景理解、机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于创建更逼真的3D模型,并实现更精确的场景分割和理解,从而为这些应用提供更强大的支持。未来,该技术有望应用于自动驾驶、智能家居等领域。

📄 摘要(原文)

Recently, 3D Gaussian Splatting (3DGS) has achieved impressive performance on indoor surface reconstruction and 3D open-vocabulary segmentation. This paper presents GLS, a unified framework of 3D surface reconstruction and open-vocabulary segmentation based on 3DGS. GLS extends two fields by improving their sharpness and smoothness. For indoor surface reconstruction, we introduce surface normal prior as a geometric cue to guide the rendered normal, and use the normal error to optimize the rendered depth. For 3D open-vocabulary segmentation, we employ 2D CLIP features to guide instance features and enhance the surface smoothness, then utilize DEVA masks to maintain their view consistency. Extensive experiments demonstrate the effectiveness of jointly optimizing surface reconstruction and 3D open-vocabulary segmentation, where GLS surpasses state-of-the-art approaches of each task on MuSHRoom, ScanNet++ and LERF-OVS datasets. Project webpage: https://jiaxiongq.github.io/GLS_ProjectPage.