OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion

📄 arXiv: 2510.18253v1 📥 PDF

作者: Tianyu Huang, Runnan Chen, Dongting Hu, Fengming Huang, Mingming Gong, Tongliang Liu

分类: cs.CV

发布日期: 2025-10-21


💡 一句话要点

提出OpenInsGaussian,通过上下文感知跨视角融合实现开放词汇实例高斯分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景理解 高斯分割 开放词汇 上下文感知 跨视角融合 实例分割 注意力机制

📋 核心要点

  1. 现有方法在3D场景理解中,对个体掩码的上下文信息利用不足,导致分割精度受限。
  2. OpenInsGaussian通过上下文感知特征提取和注意力驱动的特征聚合,提升了分割的准确性和鲁棒性。
  3. 实验结果表明,OpenInsGaussian在开放词汇3D高斯分割任务上显著优于现有方法,性能提升明显。

📝 摘要(中文)

本文提出OpenInsGaussian,一个具有上下文感知跨视角融合的开放词汇实例高斯分割框架。现有的语义高斯溅射方法利用大规模2D视觉模型将2D语义特征投影到3D场景中,但存在两个主要限制:(1)预处理期间个体掩码的上下文线索不足;(2)融合来自这些2D模型的多视角特征时,存在不一致和细节缺失。OpenInsGaussian包含两个模块:上下文感知特征提取,用丰富的语义上下文增强每个掩码;注意力驱动的特征聚合,选择性地融合多视角特征,以减轻对齐误差和不完整性。在基准数据集上的大量实验表明,OpenInsGaussian在开放词汇3D高斯分割方面取得了最先进的结果,大幅优于现有基线。这些发现强调了该方法的鲁棒性和通用性,标志着在3D场景理解及其在各种实际场景中的实际部署方面迈出了重要一步。

🔬 方法详解

问题定义:论文旨在解决开放词汇3D场景中的实例高斯分割问题。现有方法,特别是基于语义高斯溅射的方法,在利用2D视觉模型提取特征时,面临上下文信息不足和多视角特征融合不一致的问题,导致分割效果不佳。这些痛点限制了3D场景理解的准确性和可靠性。

核心思路:论文的核心思路是通过引入上下文感知和跨视角融合机制来增强特征表示。具体来说,首先提取更丰富的上下文信息来增强每个实例的特征,然后利用注意力机制选择性地融合来自不同视角的特征,从而减少对齐误差和信息缺失。这种设计旨在提高分割的准确性和鲁棒性。

技术框架:OpenInsGaussian框架主要包含两个模块:(1)上下文感知特征提取模块,负责提取每个实例掩码的上下文信息,增强其语义表示;(2)注意力驱动的特征聚合模块,负责选择性地融合来自多个视角的特征,以减少对齐误差和信息缺失。整个流程首先利用2D视觉模型提取多视角特征,然后通过这两个模块进行处理,最终得到3D场景的实例高斯分割结果。

关键创新:该方法最重要的创新点在于将上下文感知和注意力机制引入到开放词汇3D高斯分割中。与现有方法相比,OpenInsGaussian能够更好地利用上下文信息,并有效地融合多视角特征,从而显著提高分割性能。这种结合使得模型能够处理更复杂的场景,并具有更强的泛化能力。

关键设计:在上下文感知特征提取模块中,具体实现方式未知,可能使用了某种形式的上下文编码器或注意力机制。在注意力驱动的特征聚合模块中,使用了注意力机制来学习不同视角特征的重要性权重,并根据权重进行融合。损失函数的设计也至关重要,可能包括分割损失、一致性损失等,以保证分割的准确性和多视角一致性。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenInsGaussian在开放词汇3D高斯分割任务上取得了显著的性能提升,大幅优于现有基线方法。具体的性能数据和提升幅度需要在论文中查找,但摘要强调了其在基准数据集上的state-of-the-art表现,证明了该方法的有效性和优越性。实验结果表明,该方法具有很强的鲁棒性和泛化能力。

🎯 应用场景

OpenInsGaussian在自动驾驶、机器人技术和增强现实等领域具有广泛的应用前景。例如,在自动驾驶中,它可以用于精确分割道路上的车辆、行人等物体,提高驾驶安全性。在机器人技术中,它可以帮助机器人更好地理解周围环境,从而实现更智能的导航和操作。在增强现实中,它可以用于将虚拟物体与真实场景进行精确对齐,提供更沉浸式的用户体验。

📄 摘要(原文)

Understanding 3D scenes is pivotal for autonomous driving, robotics, and augmented reality. Recent semantic Gaussian Splatting approaches leverage large-scale 2D vision models to project 2D semantic features onto 3D scenes. However, they suffer from two major limitations: (1) insufficient contextual cues for individual masks during preprocessing and (2) inconsistencies and missing details when fusing multi-view features from these 2D models. In this paper, we introduce \textbf{OpenInsGaussian}, an \textbf{Open}-vocabulary \textbf{Ins}tance \textbf{Gaussian} segmentation framework with Context-aware Cross-view Fusion. Our method consists of two modules: Context-Aware Feature Extraction, which augments each mask with rich semantic context, and Attention-Driven Feature Aggregation, which selectively fuses multi-view features to mitigate alignment errors and incompleteness. Through extensive experiments on benchmark datasets, OpenInsGaussian achieves state-of-the-art results in open-vocabulary 3D Gaussian segmentation, outperforming existing baselines by a large margin. These findings underscore the robustness and generality of our proposed approach, marking a significant step forward in 3D scene understanding and its practical deployment across diverse real-world scenarios.