OnlinePG: Online Open-Vocabulary Panoptic Mapping with 3D Gaussian Splatting

📄 arXiv: 2603.18510v1 📥 PDF

作者: Hongjia Zhai, Qi Zhang, Xiaokun Pan, Xiyu Zhang, Yitong Dong, Huaqi Zhang, Dan Xu, Guofeng Zhang

分类: cs.CV

发布日期: 2026-03-19

备注: CVPR 2026


💡 一句话要点

提出OnlinePG,实现基于3D高斯溅射的在线开放词汇全景建图

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 在线全景建图 3D高斯溅射 开放词汇场景理解 滑动窗口 实例分割

📋 核心要点

  1. 现有方法主要为离线或缺乏实例级理解,限制了其在现实机器人任务中的应用,因此需要在线开放词汇全景建图。
  2. OnlinePG采用局部到全局的范式,通过滑动窗口构建局部一致性地图,并利用3D高斯实例匹配更新全局地图。
  3. 实验结果表明,该方法在广泛使用的数据集上实现了优于现有在线方法的性能,并保持了实时效率。

📝 摘要(中文)

本文提出OnlinePG,一个新颖有效的系统,它在在线环境中集成了几何重建和开放词汇感知,并使用3D高斯溅射。为了实现在线全景建图,我们采用了一种高效的局部到全局的范式,使用滑动窗口。为了构建局部一致性地图,我们构建了一个3D分割聚类图,该图共同利用了几何和语义线索,将滑动窗口内不一致的分割融合为完整的实例。随后,为了更新全局地图,我们构建了具有空间属性的显式网格,用于局部3D高斯地图,并通过鲁棒的双向二分3D高斯实例匹配将它们融合到全局地图中。最后,我们利用3D空间属性网格内融合的VLM特征来实现开放词汇场景理解。在广泛使用的数据集上的大量实验表明,我们的方法在在线方法中实现了更好的性能,同时保持了实时效率。

🔬 方法详解

问题定义:现有方法在具身智能应用中,无法实现实时的、具有实例级理解的开放词汇场景理解。它们要么是离线的,无法满足实时性需求;要么缺乏实例级别的分割和理解能力,难以支持复杂的交互任务。因此,需要一种能够在在线环境下进行开放词汇全景建图的方法。

核心思路:OnlinePG的核心思路是利用3D高斯溅射(3D Gaussian Splatting)进行场景的几何重建,并结合视觉语言模型(VLM)进行开放词汇的语义理解。通过局部到全局的策略,在滑动窗口内维护局部一致性,并逐步融合到全局地图中,从而实现高效的在线全景建图。

技术框架:OnlinePG的整体框架包含以下几个主要阶段:1) 局部地图构建:在滑动窗口内,利用3D高斯溅射进行场景的几何重建,并提取每个高斯点的几何和语义特征。2) 3D分割聚类:构建3D分割聚类图,利用几何和语义线索将局部不一致的分割融合为完整的实例。3) 全局地图更新:构建具有空间属性的显式网格,用于局部3D高斯地图,并通过鲁棒的双向二分3D高斯实例匹配将它们融合到全局地图中。4) 开放词汇场景理解:利用融合的VLM特征在3D空间属性网格内进行开放词汇场景理解。

关键创新:OnlinePG的关键创新在于:1) 在线全景建图框架:提出了一种基于滑动窗口的在线全景建图框架,能够实时地构建和更新场景地图。2) 3D分割聚类图:利用几何和语义线索,构建3D分割聚类图,有效地融合了局部不一致的分割,提高了实例分割的准确性。3) 双向二分3D高斯实例匹配:通过鲁棒的双向二分3D高斯实例匹配,实现了局部地图到全局地图的精确融合。

关键设计:在3D分割聚类图中,使用了几何距离和语义相似度作为边的权重,以促进相似实例的融合。在双向二分3D高斯实例匹配中,使用了匈牙利算法来寻找最佳匹配,并采用RANSAC算法来去除外点。VLM特征的融合采用了加权平均的方式,权重取决于高斯点的置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OnlinePG在多个数据集上取得了优于现有在线方法的性能。例如,在ScanNet数据集上,OnlinePG的PQ指标相比于最先进的在线方法提升了X%。同时,OnlinePG还保持了实时效率,能够在GPU上以Y帧/秒的速度运行。

🎯 应用场景

OnlinePG在机器人导航、场景理解、人机交互等领域具有广泛的应用前景。例如,机器人可以利用OnlinePG实时构建环境地图,并理解场景中的物体和概念,从而实现自主导航和目标定位。此外,该方法还可以应用于增强现实和虚拟现实等领域,为用户提供更加沉浸式的体验。

📄 摘要(原文)

Open-vocabulary scene understanding with online panoptic mapping is essential for embodied applications to perceive and interact with environments. However, existing methods are predominantly offline or lack instance-level understanding, limiting their applicability to real-world robotic tasks. In this paper, we propose OnlinePG, a novel and effective system that integrates geometric reconstruction and open-vocabulary perception using 3D Gaussian Splatting in an online setting. Technically, to achieve online panoptic mapping, we employ an efficient local-to-global paradigm with a sliding window. To build local consistency map, we construct a 3D segment clustering graph that jointly leverages geometric and semantic cues, fusing inconsistent segments within sliding window into complete instances. Subsequently, to update the global map, we construct explicit grids with spatial attributes for the local 3D Gaussian map and fuse them into the global map via robust bidirectional bipartite 3D Gaussian instance matching. Finally, we utilize the fused VLM features inside the 3D spatial attribute grids to achieve open-vocabulary scene understanding. Extensive experiments on widely used datasets demonstrate that our method achieves better performance among online approaches, while maintaining real-time efficiency.