Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying

📄 arXiv: 2503.21767v2 📥 PDF

作者: Hairong Yin, Huangying Zhan, Yi Xu, Raymond A. Yeh

分类: cs.CV

发布日期: 2025-03-27 (更新: 2025-09-26)


💡 一句话要点

提出语义一致语言高斯溅射,实现点级开放词汇查询

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景理解 高斯溅射 开放词汇查询 语义一致性 点云处理

📋 核心要点

  1. 现有方法在3D高斯溅射场景理解中,面临2D掩码监督不一致和缺乏鲁棒点级检索的挑战。
  2. 论文提出一种点级查询框架,通过跟踪分割掩码建立语义一致的真值,并提炼语言高斯。
  3. 实验结果表明,该方法在LERF、3D-OVS和Replica数据集上显著提升了mIoU,验证了其有效性。

📝 摘要(中文)

开放词汇的3D场景理解对于机器人应用至关重要,例如自然语言驱动的操作、人机交互和自主导航。现有的3D高斯溅射查询方法通常难以处理不一致的2D掩码监督,并且缺乏鲁棒的3D点级检索机制。本文提出了一种新的点级查询框架,该框架对分割掩码执行跟踪,以建立语义一致的真值,从而提炼语言高斯。此外,我们引入了一种GT锚定的查询方法,该方法首先检索提炼的真值,然后使用真值来查询各个高斯。在三个基准数据集上的大量实验表明,所提出的方法优于最先进的性能。我们的方法在LERF、3D-OVS和Replica数据集上分别实现了+4.14、+20.42和+1.7的mIoU改进。这些结果验证了我们的框架是朝着现实世界机器人系统中开放词汇理解迈出的有希望的一步。

🔬 方法详解

问题定义:现有方法在开放词汇3D场景理解中,依赖不一致的2D掩码监督,导致3D高斯溅射查询结果不准确。缺乏有效的3D点级检索机制,难以实现精细化的场景理解和交互。

核心思路:论文的核心思路是建立语义一致的真值(ground truth),并以此为锚点进行查询。通过在分割掩码上进行跟踪,确保真值在不同视角下的一致性,从而更准确地提炼语言高斯。

技术框架:该框架包含两个主要阶段:1) 语义一致真值建立:对分割掩码进行跟踪,生成可靠的真值标签。2) GT锚定的查询:首先检索与查询相关的真值区域,然后利用这些真值区域来查询对应的高斯分布。整体流程是从粗到精,先定位到语义区域,再精确定位到高斯分布。

关键创新:关键创新在于语义一致真值的建立和GT锚定的查询策略。通过分割掩码跟踪,解决了2D监督不一致的问题,保证了3D场景理解的准确性。GT锚定的查询方式,利用真值作为中间表示,提高了查询效率和精度。

关键设计:分割掩码跟踪的具体算法未知,但可以推测使用了光流或特征匹配等技术。损失函数的设计可能包括语义一致性损失和查询准确性损失。高斯分布的查询方式可能基于高斯混合模型的概率密度函数,选择概率最高的若干个高斯分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在三个基准数据集上取得了显著的性能提升。在LERF数据集上,mIoU提升了4.14;在3D-OVS数据集上,mIoU提升了高达20.42;在Replica数据集上,mIoU提升了1.7。这些结果表明,该方法在开放词汇3D场景理解方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于机器人领域,例如自然语言驱动的机器人操作、人机交互和自主导航。通过理解场景中的物体和关系,机器人可以更好地执行任务,与人类进行更自然的交互,并在复杂环境中自主导航。该技术还有潜力应用于虚拟现实、增强现实等领域,提升用户体验。

📄 摘要(原文)

Open-vocabulary 3D scene understanding is crucial for robotics applications, such as natural language-driven manipulation, human-robot interaction, and autonomous navigation. Existing methods for querying 3D Gaussian Splatting often struggle with inconsistent 2D mask supervision and lack a robust 3D point-level retrieval mechanism. In this work, (i) we present a novel point-level querying framework that performs tracking on segmentation masks to establish a semantically consistent ground-truth for distilling the language Gaussians; (ii) we introduce a GT-anchored querying approach that first retrieves the distilled ground-truth and subsequently uses the ground-truth to query the individual Gaussians. Extensive experiments on three benchmark datasets demonstrate that the proposed method outperforms state-of-the-art performance. Our method achieves an mIoU improvement of +4.14, +20.42, and +1.7 on the LERF, 3D-OVS, and Replica datasets. These results validate our framework as a promising step toward open-vocabulary understanding in real-world robotic systems.