Taking Language Embedded 3D Gaussian Splatting into the Wild

📄 arXiv: 2507.19830v2 📥 PDF

作者: Yuze Wang, Yue Qi

分类: cs.GR, cs.CV

发布日期: 2025-07-26 (更新: 2025-08-05)

备注: Visit our project page at https://yuzewang1998.github.io/takinglangsplatw/


💡 一句话要点

提出基于语言嵌入3D高斯溅射的开放词汇场景理解框架,用于处理无约束照片集。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 开放词汇分割 场景理解 多视图学习 不确定性建模

📋 核心要点

  1. 现有3D重建技术缺乏对建筑风格和结构知识的沉浸式理解,主要局限于静态文本-图像对浏览。
  2. 该论文扩展了语言嵌入3D高斯溅射,利用多外观CLIP特征和不确定性图指导优化,实现开放词汇场景理解。
  3. 实验结果表明,该方法在开放词汇分割任务上优于现有方法,并支持多种交互式应用。

📝 摘要(中文)

本文提出了一种新颖的框架,用于从无约束照片集中进行开放词汇场景理解,扩展了语言嵌入3D高斯溅射(3DGS)。该方法首先从重建的辐射场中渲染多个外观图像,提取多外观CLIP特征以及两种类型的语言特征不确定性图(瞬态和外观不确定性),以指导后续优化过程。然后,提出了一个瞬态不确定性感知自编码器、一个多外观语言场3DGS表示和一个后集成策略,以有效地压缩、学习和融合来自多个外观的语言特征。为了定量评估该方法,引入了PT-OVS,这是一个新的基准数据集,用于评估无约束照片集上的开放词汇分割性能。实验结果表明,该方法优于现有方法,实现了准确的开放词汇分割,并支持交互式漫游、建筑风格模式识别和3D场景编辑等应用。

🔬 方法详解

问题定义:现有方法在利用大规模互联网照片集进行3D重建时,缺乏对建筑风格和结构知识的深入理解。用户只能浏览静态的文本-图像对,无法进行沉浸式的探索和理解。因此,如何从无约束的照片集中重建出包含语义信息的3D场景,并支持开放词汇的查询和分割,是一个亟待解决的问题。

核心思路:该论文的核心思路是将语言信息嵌入到3D高斯溅射(3DGS)表示中,从而实现对3D场景的语义理解。通过从多个视角渲染图像,提取多外观的CLIP特征,并利用不确定性信息来指导语言特征的学习和融合,从而提高语义分割的准确性。

技术框架:该框架主要包含以下几个模块:1) 多外观图像渲染:从重建的辐射场中渲染多个外观图像,模拟不同视角下的场景外观。2) 特征提取:提取多外观图像的CLIP特征,以及两种类型的不确定性图(瞬态不确定性和外观不确定性)。3) 语言特征学习与融合:利用瞬态不确定性感知自编码器、多外观语言场3DGS表示和后集成策略,压缩、学习和融合来自多个外观的语言特征。4) 开放词汇分割:利用学习到的语言特征进行开放词汇的语义分割。

关键创新:该论文的关键创新在于:1) 提出了多外观语言场3DGS表示,将语言信息嵌入到3D高斯溅射中,实现了对3D场景的语义理解。2) 提出了瞬态不确定性感知自编码器,利用不确定性信息来指导语言特征的学习和融合,提高了语义分割的准确性。3) 引入了PT-OVS数据集,用于评估无约束照片集上的开放词汇分割性能。

关键设计:1) 瞬态不确定性感知自编码器:该自编码器利用瞬态不确定性图作为输入,学习更加鲁棒的语言特征表示。2) 多外观语言场3DGS表示:将语言特征嵌入到3D高斯溅射的各个高斯球中,从而实现对3D场景的语义表示。3) 后集成策略:通过对多个外观的语言特征进行集成,提高语义分割的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在PT-OVS数据集上取得了显著的性能提升,优于现有的方法。具体来说,该方法在开放词汇分割任务上的准确率提高了XX%,证明了其有效性。此外,该方法还展示了在交互式漫游、建筑风格模式识别和3D场景编辑等应用中的潜力。

🎯 应用场景

该研究成果可应用于多种场景,例如:1) 交互式漫游:用户可以使用开放词汇查询场景中的物体,并进行交互式探索。2) 建筑风格模式识别:可以自动识别建筑物的风格和结构特征。3) 3D场景编辑:可以根据用户的语言指令对3D场景进行编辑和修改。这些应用具有重要的实际价值,并有望推动3D场景理解和编辑领域的发展。

📄 摘要(原文)

Recent advances in leveraging large-scale Internet photo collections for 3D reconstruction have enabled immersive virtual exploration of landmarks and historic sites worldwide. However, little attention has been given to the immersive understanding of architectural styles and structural knowledge, which remains largely confined to browsing static text-image pairs. Therefore, can we draw inspiration from 3D in-the-wild reconstruction techniques and use unconstrained photo collections to create an immersive approach for understanding the 3D structure of architectural components? To this end, we extend language embedded 3D Gaussian splatting (3DGS) and propose a novel framework for open-vocabulary scene understanding from unconstrained photo collections. Specifically, we first render multiple appearance images from the same viewpoint as the unconstrained image with the reconstructed radiance field, then extract multi-appearance CLIP features and two types of language feature uncertainty maps-transient and appearance uncertainty-derived from the multi-appearance features to guide the subsequent optimization process. Next, we propose a transient uncertainty-aware autoencoder, a multi-appearance language field 3DGS representation, and a post-ensemble strategy to effectively compress, learn, and fuse language features from multiple appearances. Finally, to quantitatively evaluate our method, we introduce PT-OVS, a new benchmark dataset for assessing open-vocabulary segmentation performance on unconstrained photo collections. Experimental results show that our method outperforms existing methods, delivering accurate open-vocabulary segmentation and enabling applications such as interactive roaming with open-vocabulary queries, architectural style pattern recognition, and 3D scene editing.