Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

📄 arXiv: 2605.04506v1 📥 PDF

作者: Binh Long Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

分类: cs.CV, cs.AI

发布日期: 2026-05-06

备注: The International Conference on Pattern Recognition (ICPR) 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Ilov3Splat:基于高斯溅射的实例级开放词汇3D场景理解框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景理解 高斯溅射 开放词汇 实例分割 自然语言处理 对比学习 特征场

📋 核心要点

  1. 现有方法依赖2D渲染匹配或点级语义关联,导致跨视角不一致,缺乏实例级推理,限制了3D任务精度。
  2. Ilov3Splat通过视角一致的特征场增强高斯溅射,联合优化场景几何和语义表示,实现密集语言 grounding。
  3. 实验表明,Ilov3Splat在对象选择和实例分割上优于现有开放词汇3D-GS方法,提供灵活准确的方案。

📝 摘要(中文)

本文提出了一种名为Ilov3Splat的新框架,用于在3D高斯溅射(3D-GS)基础上实现实例级开放词汇3D场景理解。现有方法大多依赖于基于2D渲染的匹配或点级语义关联,这损害了跨视角一致性,缺乏连贯的实例级推理,并限制了下游3D任务的精度。为了解决这些局限性,我们的方法通过使用视角一致的特征场增强高斯溅射,从而联合优化场景几何和语义表示。具体来说,我们利用多分辨率哈希嵌入来有效地编码语言对齐的CLIP特征,从而在3D空间中实现密集且连贯的语言 grounding。我们还使用基于SAM掩码的对比损失训练实例特征场,支持跨视角的细粒度对象区分。在推理时,CLIP编码的查询与学习到的特征进行匹配,然后进行两阶段3D聚类以检索相关的Gaussian组。这使得我们的框架能够基于自然语言描述识别3D场景中的任意对象,而无需类别监督或手动注释。在标准基准上的实验表明,Ilov3Splat在对象选择和实例分割方面均优于先前的开放词汇3D-GS方法,为语言驱动的3D场景理解提供了一种灵活而准确的解决方案。

🔬 方法详解

问题定义:现有开放词汇3D场景理解方法主要依赖于2D渲染匹配或点级别的语义关联,这导致跨视角一致性较差,缺乏连贯的实例级推理能力,并且限制了下游3D任务的精度。这些方法难以准确地识别和分割3D场景中的特定对象,尤其是在复杂场景和遮挡情况下。

核心思路:Ilov3Splat的核心思路是通过将语言信息直接嵌入到3D高斯溅射表示中,从而实现更精确和一致的3D场景理解。该方法利用视角一致的特征场来增强高斯溅射,并使用对比学习来训练实例特征场,从而支持细粒度的对象区分。通过将语言查询与学习到的3D特征进行匹配,可以实现基于自然语言描述的对象选择和实例分割。

技术框架:Ilov3Splat的整体框架包括以下几个主要阶段:1) 使用多分辨率哈希嵌入编码语言对齐的CLIP特征,并将其嵌入到3D高斯溅射中。2) 使用基于SAM掩码的对比损失训练实例特征场,以区分不同的对象实例。3) 在推理时,使用CLIP编码的语言查询与学习到的3D特征进行匹配。4) 使用两阶段3D聚类算法来检索相关的Gaussian组,从而实现对象选择和实例分割。

关键创新:Ilov3Splat的关键创新在于它将语言信息直接嵌入到3D高斯溅射表示中,并使用视角一致的特征场来增强高斯溅射。这与现有方法依赖于2D渲染匹配或点级别语义关联的方法不同,从而实现了更精确和一致的3D场景理解。此外,该方法还使用对比学习来训练实例特征场,从而支持细粒度的对象区分。

关键设计:该方法使用多分辨率哈希嵌入来高效地编码CLIP特征,并使用对比损失来训练实例特征场。对比损失的设计基于SAM(Segment Anything Model)生成的掩码,用于区分不同的对象实例。两阶段3D聚类算法用于从高斯溅射中检索相关的Gaussian组,从而实现对象选择和实例分割。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Ilov3Splat在标准基准测试中表现出色,在对象选择和实例分割方面均优于现有的开放词汇3D-GS方法。具体性能数据和对比基线在论文中详细展示。该方法无需类别监督或手动注释,即可实现基于自然语言描述的3D场景理解,具有很高的实用价值。

🎯 应用场景

Ilov3Splat在机器人导航、增强现实、虚拟现实、3D场景编辑等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,并根据自然语言指令执行任务。在AR/VR应用中,它可以实现基于语言的交互和对象操作。此外,该技术还可以用于3D场景编辑,例如根据语言描述修改场景中的对象。

📄 摘要(原文)

We introduce Ilov3Splat, a novel framework for instance-level open-vocabulary 3D scene understanding built on 3D Gaussian Splatting (3D-GS). Most prior work depends on 2D rendering-based matching or point-level semantic association, which undermines cross-view consistency, lacks coherent instance-level reasoning, and limits precision in downstream 3D tasks. To address these limitations, our method jointly optimizes scene geometry and semantic representations by augmenting Gaussian splats with view-consistent feature fields. Specifically, we leverage multi-resolution hash embedding to efficiently encode language-aligned CLIP features, enabling dense and coherent language grounding in 3D space. We further train an instance feature field using contrastive loss over SAM masks, supporting fine-grained object distinction across views. At inference time, CLIP-encoded queries are matched against the learned features, followed by two-stage 3D clustering to retrieve relevant Gaussian groups. This enables our framework to identify arbitrary objects in 3D scenes based on natural language descriptions, without requiring category supervision or manual annotations. Experiments on standard benchmarks demonstrate that Ilov3Splat outperforms prior open-vocabulary 3D-GS methods in both object selection and instance segmentation, offering a flexible and accurate solution for language-driven 3D scene understanding. Project page: https://csiro-robotics.github.io/Ilov3Splat.