Hi-LSplat: Hierarchical 3D Language Gaussian Splatting

📄 arXiv: 2506.06822v1 📥 PDF

作者: Chenlu Zhan, Yufei Zhang, Gaoang Wang, Hongwei Wang

分类: cs.CV, cs.AI

发布日期: 2025-06-07


💡 一句话要点

提出Hi-LSplat,解决3D语言高斯溅射中视角不一致和层级语义理解问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D高斯溅射 语言建模 分层语义 对比学习 开放词汇分割

📋 核心要点

  1. 现有3DGS模型依赖2D特征进行语义细化,缺乏统一的3D表示,导致视角不一致。
  2. Hi-LSplat通过构建3D分层语义树,将2D特征提升到3D,实现视角一致的分层语义理解。
  3. 实验表明,Hi-LSplat在3D开放词汇分割和定位上优于现有方法,并能有效理解复杂分层语义。

📝 摘要(中文)

本文提出Hi-LSplat,一种视角一致的分层语言高斯溅射方法,用于3D开放词汇查询。针对现有基于3DGS的模型利用视角相关的2D基础模型细化3D语义但缺乏统一3D表示导致视角不一致的问题,以及开放词汇挑战引起的物体和关系描述不一致阻碍分层语义理解的问题,Hi-LSplat通过分层实例聚类构建3D分层语义树,将2D特征提升到3D特征,解决视角不一致问题。此外,引入实例级别和部分级别的对比损失,以捕获全方位的分层语义表示。构建了两个分层语义数据集,以更好评估模型区分不同语义级别的能力。大量实验表明,该方法在3D开放词汇分割和定位方面表现出色,在分层语义数据集上的强大性能突显了其捕获3D场景中复杂分层语义的能力。

🔬 方法详解

问题定义:现有基于3D高斯溅射(3DGS)的3D语言场建模方法,虽然利用了2D基础模型来增强3D语义,但由于缺乏统一的3D表示,导致视角不一致性问题。此外,开放词汇带来的挑战使得物体和关系描述不一致,阻碍了模型对场景进行分层语义理解的能力。

核心思路:Hi-LSplat的核心思路是通过构建一个3D分层语义树,将2D特征提升到3D空间,从而实现视角一致的3D语义表示。同时,通过引入实例级别和部分级别的对比学习,增强模型对不同语义层级的区分能力,从而更好地理解场景中的分层语义关系。

技术框架:Hi-LSplat的整体框架包含以下几个主要步骤:1) 利用2D图像特征提取器提取图像特征。2) 通过分层实例聚类构建3D分层语义树,将2D特征提升到3D空间。3) 利用实例级别和部分级别的对比损失训练模型,增强其对分层语义的理解能力。4) 使用训练好的模型进行3D开放词汇分割和定位等任务。

关键创新:Hi-LSplat的关键创新在于:1) 提出了一个视角一致的3D分层语义表示方法,有效解决了现有方法中存在的视角不一致性问题。2) 引入了实例级别和部分级别的对比学习,增强了模型对分层语义的理解能力。3) 构建了两个新的分层语义数据集,为评估模型的分层语义理解能力提供了基准。

关键设计:在构建3D分层语义树时,采用了分层实例聚类算法,根据语义相似度将3D高斯溅射点云划分为不同的语义层级。在对比学习中,使用了InfoNCE损失函数,鼓励模型学习到区分不同实例和部分的关键特征。此外,为了更好地评估模型的分层语义理解能力,设计了专门的评估指标,例如分层语义分割精度和分层语义关系召回率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hi-LSplat在3D开放词汇分割和定位任务上取得了显著的性能提升。在自建的分层语义数据集上,Hi-LSplat的性能明显优于现有的基线方法,证明了其在捕获复杂分层语义方面的优势。实验结果表明,Hi-LSplat能够有效地解决视角不一致性问题,并能够准确地理解场景中的物体关系。

🎯 应用场景

Hi-LSplat在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。例如,机器人可以利用Hi-LSplat理解复杂场景中的物体关系,从而更好地进行导航和交互。在虚拟现实和增强现实中,Hi-LSplat可以用于创建更逼真、更具语义理解能力的3D场景。

📄 摘要(原文)

Modeling 3D language fields with Gaussian Splatting for open-ended language queries has recently garnered increasing attention. However, recent 3DGS-based models leverage view-dependent 2D foundation models to refine 3D semantics but lack a unified 3D representation, leading to view inconsistencies. Additionally, inherent open-vocabulary challenges cause inconsistencies in object and relational descriptions, impeding hierarchical semantic understanding. In this paper, we propose Hi-LSplat, a view-consistent Hierarchical Language Gaussian Splatting work for 3D open-vocabulary querying. To achieve view-consistent 3D hierarchical semantics, we first lift 2D features to 3D features by constructing a 3D hierarchical semantic tree with layered instance clustering, which addresses the view inconsistency issue caused by 2D semantic features. Besides, we introduce instance-wise and part-wise contrastive losses to capture all-sided hierarchical semantic representations. Notably, we construct two hierarchical semantic datasets to better assess the model's ability to distinguish different semantic levels. Extensive experiments highlight our method's superiority in 3D open-vocabulary segmentation and localization. Its strong performance on hierarchical semantic datasets underscores its ability to capture complex hierarchical semantics within 3D scenes.