SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation

📄 arXiv: 2511.18386v1 📥 PDF

作者: Peter Siegel, Federico Tombari, Marc Pollefeys, Daniel Barath

分类: cs.CV

发布日期: 2025-11-23


💡 一句话要点

SegSplat:提出一种前馈高斯溅射和开放集语义分割框架

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 高斯溅射 语义分割 开放集学习 3D重建 前馈网络

📋 核心要点

  1. 现有方法难以在快速3D重建的同时实现丰富的开放词汇语义理解。
  2. SegSplat通过构建语义记忆库并预测每个3D高斯的语义索引,实现了高效的语义注入。
  3. 实验表明,SegSplat在几何保真度上与SOTA方法相当,并实现了鲁棒的开放集语义分割,无需场景优化。

📝 摘要(中文)

我们介绍了SegSplat,这是一个新颖的框架,旨在弥合快速、前馈3D重建和丰富的、开放词汇语义理解之间的差距。通过从多视图2D基础模型特征构建紧凑的语义记忆库,并在单次传递中为每个3D高斯预测离散语义索引以及几何和外观属性,SegSplat有效地为场景注入可查询的语义。我们的实验表明,SegSplat实现了与最先进的前馈3D高斯溅射方法相当的几何保真度,同时实现了鲁棒的开放集语义分割,关键是 extit{无需}任何场景优化来进行语义特征集成。这项工作代表了朝着实际、即时生成具有语义感知的3D环境迈出的重要一步,这对于推进机器人交互、增强现实和其他智能系统至关重要。

🔬 方法详解

问题定义:论文旨在解决快速3D重建和开放集语义分割相结合的问题。现有方法通常需要对每个场景进行优化以集成语义特征,计算成本高昂,且难以泛化到未见过的类别。此外,如何将2D基础模型的强大语义理解能力迁移到3D场景中也是一个挑战。

核心思路:SegSplat的核心思路是利用多视图2D图像的特征,构建一个紧凑的语义记忆库,并将其与3D高斯溅射表示相结合。通过单次前馈过程,预测每个3D高斯的几何、外观和语义属性,从而实现快速且具有语义信息的3D场景重建。这种设计避免了昂贵的场景优化,并能够利用预训练的2D基础模型的知识。

技术框架:SegSplat的整体框架包括以下几个主要阶段:1) 多视图图像输入;2) 利用2D基础模型提取图像特征;3) 构建语义记忆库,将2D特征映射到3D空间;4) 前馈高斯溅射,预测每个高斯的几何、外观和语义属性;5) 渲染和语义分割。该框架的关键在于语义记忆库的构建和语义属性的预测。

关键创新:SegSplat最重要的技术创新点在于其无需场景优化的开放集语义分割能力。通过将2D基础模型的语义知识迁移到3D高斯表示中,SegSplat能够对未见过的类别进行分割,而无需额外的训练或优化。这与传统的需要针对每个场景进行优化的方法形成了鲜明对比。

关键设计:SegSplat的关键设计包括:1) 使用预训练的2D基础模型(如CLIP)提取图像特征;2) 设计有效的语义记忆库,将2D特征映射到3D空间;3) 使用可微分的渲染技术,实现端到端的训练;4) 设计合适的损失函数,平衡几何重建和语义分割的性能。

📊 实验亮点

SegSplat在几何保真度上实现了与最先进的前馈3D高斯溅射方法相当的性能,同时实现了鲁棒的开放集语义分割。关键在于,SegSplat无需任何场景优化来进行语义特征集成,这大大提高了效率和泛化能力。实验结果表明,SegSplat能够有效地对未见过的类别进行分割,并生成具有丰富语义信息的3D场景。

🎯 应用场景

SegSplat具有广泛的应用前景,包括机器人交互、增强现实、虚拟现实、自动驾驶等领域。它可以用于构建具有语义感知的3D环境,使机器人能够更好地理解和操作周围的世界。在增强现实中,SegSplat可以用于将虚拟对象与真实场景进行无缝融合,并提供丰富的语义信息。此外,SegSplat还可以用于自动驾驶中的场景理解和目标检测。

📄 摘要(原文)

We have introduced SegSplat, a novel framework designed to bridge the gap between rapid, feed-forward 3D reconstruction and rich, open-vocabulary semantic understanding. By constructing a compact semantic memory bank from multi-view 2D foundation model features and predicting discrete semantic indices alongside geometric and appearance attributes for each 3D Gaussian in a single pass, SegSplat efficiently imbues scenes with queryable semantics. Our experiments demonstrate that SegSplat achieves geometric fidelity comparable to state-of-the-art feed-forward 3D Gaussian Splatting methods while simultaneously enabling robust open-set semantic segmentation, crucially \textit{without} requiring any per-scene optimization for semantic feature integration. This work represents a significant step towards practical, on-the-fly generation of semantically aware 3D environments, vital for advancing robotic interaction, augmented reality, and other intelligent systems.