ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding
作者: Lingjun Zhao, Yandong Luo, James Hays, Lu Gan
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出ShelfGaussian,利用自监督VFM实现开放词汇高斯3D场景理解
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景理解 高斯模型 多模态融合 自监督学习 视觉基础模型 零样本学习 语义占据预测
📋 核心要点
- 现有高斯模型方法在3D场景理解中存在局限,要么忽略渲染能力,要么几何结构退化,且仅限于相机。
- ShelfGaussian提出多模态高斯Transformer,使高斯模型能查询多传感器特征,并用VFM特征在2D和3D层面联合优化。
- 实验表明,ShelfGaussian在Occ3D-nuScenes数据集上取得了最先进的零样本语义占据预测性能,并在UGV上验证了实际性能。
📝 摘要(中文)
本文提出ShelfGaussian,一个基于高斯模型的开放词汇多模态3D场景理解框架,该框架由现成的视觉基础模型(VFMs)进行监督。基于高斯模型的方法在各种场景理解任务中表现出卓越的性能和计算效率。然而,现有的方法要么将对象建模为由带注释的3D标签监督的封闭集语义高斯模型,忽略了它们的渲染能力,要么通过纯粹的2D自监督学习开放集高斯表示,导致几何结构退化,并且仅限于仅使用相机的设置。为了充分利用高斯模型的潜力,我们提出了一个多模态高斯Transformer,使高斯模型能够查询来自不同传感器模态的特征,以及一个Shelf-Supervised学习范式,该范式在2D图像和3D场景级别上,利用VFM特征高效地优化高斯模型。我们在各种感知和规划任务上评估了ShelfGaussian。在Occ3D-nuScenes上的实验证明了其最先进的零样本语义占据预测性能。ShelfGaussian还在无人地面车辆(UGV)上进行了评估,以评估其在各种城市场景中的实际性能。
🔬 方法详解
问题定义:现有基于高斯模型的3D场景理解方法存在局限性。一些方法依赖于带标注的3D数据,将其建模为封闭集语义高斯模型,忽略了高斯模型的渲染能力。另一些方法则采用纯2D自监督学习开放集高斯表示,导致几何结构退化,并且只能在仅使用相机的场景下工作。因此,如何充分利用高斯模型的潜力,实现更准确、更通用的3D场景理解是一个关键问题。
核心思路:ShelfGaussian的核心思路是利用现成的视觉基础模型(VFMs)作为监督信号,通过多模态高斯Transformer将来自不同传感器模态的特征融入高斯模型中,并在2D图像和3D场景两个层面上联合优化高斯模型。这种方法旨在克服现有方法的局限性,提高高斯模型的表达能力和泛化性能。
技术框架:ShelfGaussian框架主要包含以下几个模块:1) 多模态特征提取模块,用于提取来自不同传感器(如相机、激光雷达)的特征。2) 多模态高斯Transformer,用于将提取的特征融入高斯模型中,实现多模态信息的融合。3) Shelf-Supervised Learning模块,利用VFM特征在2D图像和3D场景两个层面上对高斯模型进行优化。整个流程是,首先利用多模态特征提取模块提取特征,然后通过多模态高斯Transformer将特征融入高斯模型,最后利用Shelf-Supervised Learning模块进行优化。
关键创新:ShelfGaussian的关键创新在于以下几个方面:1) 提出了多模态高斯Transformer,能够有效地融合来自不同传感器模态的特征。2) 提出了Shelf-Supervised Learning范式,利用现成的视觉基础模型(VFMs)作为监督信号,避免了对大量标注数据的依赖。3) 实现了在2D图像和3D场景两个层面上对高斯模型的联合优化,提高了高斯模型的表达能力和泛化性能。
关键设计:多模态高斯Transformer的具体结构未知,但可以推测其设计目标是有效地将来自不同模态的特征映射到高斯模型的参数空间中。Shelf-Supervised Learning模块的关键在于如何选择合适的VFM特征以及如何设计损失函数,以保证高斯模型能够准确地表示场景的几何结构和语义信息。具体的参数设置、损失函数和网络结构等技术细节在论文中可能有所描述,但根据摘要无法得知。
🖼️ 关键图片
📊 实验亮点
ShelfGaussian在Occ3D-nuScenes数据集上取得了最先进的零样本语义占据预测性能,证明了其在3D场景理解方面的优越性。此外,该方法还在无人地面车辆(UGV)上进行了评估,验证了其在真实城市环境中的实际性能。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
ShelfGaussian在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。它可以用于提高无人地面车辆(UGV)在复杂城市环境中的感知能力,实现更安全、更可靠的自主导航。此外,该方法还可以应用于三维场景重建、语义地图构建等任务,为相关领域的研究和应用提供支持。
📄 摘要(原文)
We introduce ShelfGaussian, an open-vocabulary multi-modal Gaussian-based 3D scene understanding framework supervised by off-the-shelf vision foundation models (VFMs). Gaussian-based methods have demonstrated superior performance and computational efficiency across a wide range of scene understanding tasks. However, existing methods either model objects as closed-set semantic Gaussians supervised by annotated 3D labels, neglecting their rendering ability, or learn open-set Gaussian representations via purely 2D self-supervision, leading to degraded geometry and limited to camera-only settings. To fully exploit the potential of Gaussians, we propose a Multi-Modal Gaussian Transformer that enables Gaussians to query features from diverse sensor modalities, and a Shelf-Supervised Learning Paradigm that efficiently optimizes Gaussians with VFM features jointly at 2D image and 3D scene levels. We evaluate ShelfGaussian on various perception and planning tasks. Experiments on Occ3D-nuScenes demonstrate its state-of-the-art zero-shot semantic occupancy prediction performance. ShelfGaussian is further evaluated on an unmanned ground vehicle (UGV) to assess its in the-wild performance across diverse urban scenarios. Project website:this https URL.