Visibility-Aware Language Aggregation for Open-Vocabulary Segmentation in 3D Gaussian Splatting

📄 arXiv: 2509.05515v1 📥 PDF

作者: Sen Wang, Kunyi Li, Siyun Liang, Elena Alegret, Jing Ma, Nassir Navab, Stefano Gasperini

分类: cs.CV

发布日期: 2025-09-05


💡 一句话要点

提出VALA,解决3D高斯溅射开放词汇分割中背景噪声和多视角不一致问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 开放词汇分割 可见性感知 多视角融合 语言特征嵌入

📋 核心要点

  1. 现有方法在3D高斯溅射中存在背景高斯噪声干扰和多视角语言特征不一致的问题,影响分割精度。
  2. VALA通过计算高斯的可见性贡献并过滤噪声,同时使用流式加权几何中位数融合多视角特征,提升鲁棒性。
  3. 实验结果表明,VALA在开放词汇定位和分割任务中显著优于现有方法,具有更好的性能。

📝 摘要(中文)

本文提出了一种名为Visibility-Aware Language Aggregation (VALA) 的轻量级但有效的方法,用于解决将2D图像中的开放词汇语言特征提炼到3D高斯模型中时存在的两个基本问题:背景高斯对渲染像素的贡献微乎其微,却与主要前景高斯获得相同的特征;以及由于语言嵌入中特定视角的噪声导致的多视角不一致性。VALA计算每条射线的边际贡献,并应用一个可见性感知门来仅保留可见的高斯。此外,我们提出了一种流式加权几何中位数算法,在余弦空间中合并噪声多视角特征。我们的方法以快速且内存高效的方式产生鲁棒、视角一致的语言特征嵌入。VALA提高了参考数据集上的开放词汇定位和分割性能,始终超越现有方法。

🔬 方法详解

问题定义:现有方法在将2D图像的开放词汇语言特征迁移到3D高斯溅射模型时,存在两个主要问题。一是背景高斯粒子对最终渲染结果贡献很小,但却被赋予了与前景高斯粒子相同的语言特征,引入了噪声。二是由于不同视角图像的语言嵌入存在差异,导致多视角特征不一致,影响了3D场景理解的准确性。这些问题限制了基于语言的3D场景交互和分割的性能。

核心思路:VALA的核心思路是关注每个高斯粒子对最终渲染结果的实际贡献,并根据其可见性进行加权。对于背景高斯粒子,降低其语言特征的影响,从而减少噪声干扰。同时,利用流式加权几何中位数来融合多视角特征,提高特征的鲁棒性和视角一致性。这种设计旨在更准确地将语言信息与3D场景几何结构对齐。

技术框架:VALA方法主要包含两个关键模块。首先是Visibility-Aware Gate,它计算每条渲染射线上每个高斯粒子的边际贡献,并根据可见性得分对语言特征进行加权,过滤掉不可见或贡献较小的高斯粒子。其次是Streaming Weighted Geometric Median,它用于融合来自不同视角的语言特征,通过迭代更新几何中位数来减少噪声和提高一致性。整个流程旨在生成更准确、更鲁棒的3D场景语言特征表示。

关键创新:VALA的关键创新在于引入了可见性感知机制,能够区分前景和背景高斯粒子,并根据其对渲染结果的贡献进行加权。这与现有方法中平等对待所有高斯粒子的做法不同,显著降低了背景噪声的干扰。此外,流式加权几何中位数的使用也提高了多视角特征融合的效率和鲁棒性。

关键设计:Visibility-Aware Gate使用可微渲染过程计算每个高斯粒子的边际贡献,并将其作为权重应用于语言特征。Streaming Weighted Geometric Median采用余弦相似度作为距离度量,通过迭代更新几何中位数来融合多视角特征。权重更新策略基于每个视角的置信度,从而更好地处理噪声数据。损失函数包括分割损失和对比损失,用于优化语言特征的表示能力。

📊 实验亮点

VALA在开放词汇定位和分割任务中取得了显著的性能提升。在参考数据集上,VALA consistently surpassing existing works,证明了其有效性。实验结果表明,VALA能够更准确地将语言信息与3D场景几何结构对齐,从而提高了分割精度和鲁棒性。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、3D场景编辑等领域。例如,机器人可以根据自然语言指令在3D环境中进行定位和交互;用户可以通过语音指令对3D场景进行编辑和修改。未来,该技术有望推动人机交互和3D场景理解的发展。

📄 摘要(原文)

Recently, distilling open-vocabulary language features from 2D images into 3D Gaussians has attracted significant attention. Although existing methods achieve impressive language-based interactions of 3D scenes, we observe two fundamental issues: background Gaussians contributing negligibly to a rendered pixel get the same feature as the dominant foreground ones, and multi-view inconsistencies due to view-specific noise in language embeddings. We introduce Visibility-Aware Language Aggregation (VALA), a lightweight yet effective method that computes marginal contributions for each ray and applies a visibility-aware gate to retain only visible Gaussians. Moreover, we propose a streaming weighted geometric median in cosine space to merge noisy multi-view features. Our method yields a robust, view-consistent language feature embedding in a fast and memory-efficient manner. VALA improves open-vocabulary localization and segmentation across reference datasets, consistently surpassing existing works.