ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting
作者: Yen-Jen Chiou, Wei-Tse Cheng, Yuan-Fu Yang
分类: cs.CV
发布日期: 2026-01-08
备注: 10 pages, 5 figures
💡 一句话要点
ProFuse:高效跨视角上下文融合的开放词汇3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 开放词汇场景理解 跨视角融合 上下文感知 直接配准
📋 核心要点
- 现有开放词汇3D场景理解方法计算成本高,且依赖预训练模型,限制了其效率和泛化能力。
- ProFuse通过密集对应引导的预配准和跨视角上下文融合,在直接配准过程中实现高效的语义附加。
- 实验表明,ProFuse在保持几何精度的同时,显著提升了开放词汇3D场景理解的速度,比SOTA方法快两倍。
📝 摘要(中文)
本文提出ProFuse,一个高效的上下文感知框架,用于利用3D高斯溅射(3DGS)进行开放词汇3D场景理解。该流程增强了直接配准设置中的跨视角一致性和mask内的内聚性,同时增加了最小的开销,并且不需要渲染监督的微调。与依赖预训练的3DGS场景不同,我们引入了一个密集对应引导的预配准阶段,该阶段初始化具有精确几何形状的高斯分布,同时通过跨视角聚类联合构建3D上下文提议。每个提议都携带一个全局特征,该特征通过成员嵌入的加权聚合获得,并且该特征在直接配准期间融合到高斯分布上,以保持跨视角的每个图元的语言连贯性。由于预先建立了关联,语义融合不需要超出标准重建的额外优化,并且该模型保留了几何细化而无需密集化。ProFuse实现了强大的开放词汇3DGS理解,同时在每个场景大约五分钟内完成语义附加,这比SOTA快两倍。
🔬 方法详解
问题定义:现有开放词汇3D场景理解方法,如基于3DGS的方法,通常需要耗时的渲染监督微调或依赖预训练的3DGS场景,导致计算成本高昂且泛化能力受限。这些方法难以在保持几何精度的同时,实现高效的跨视角语义一致性。
核心思路:ProFuse的核心在于通过预先建立跨视角的语义关联,在直接配准过程中实现高效的语义融合。它避免了渲染监督微调,并利用密集对应关系引导的预配准来初始化精确的几何形状,从而加速了语义附加过程。
技术框架:ProFuse的整体框架包含以下几个主要阶段:1) 密集对应引导的预配准:利用跨视角图像的密集对应关系初始化高斯分布,并构建3D上下文提议。2) 3D上下文提议构建:通过跨视角聚类生成3D上下文提议,每个提议包含一个全局特征,该特征通过加权聚合成员嵌入获得。3) 语义融合:在直接配准过程中,将上下文提议的全局特征融合到高斯分布上,以保持跨视角的语义一致性。
关键创新:ProFuse的关键创新在于其高效的跨视角上下文融合机制。通过预先建立语义关联,它避免了耗时的渲染监督微调,并在直接配准过程中实现了快速的语义附加。此外,密集对应引导的预配准保证了初始几何形状的准确性。
关键设计:ProFuse的关键设计包括:1) 密集对应关系的计算方法(具体方法未知,原文未详细说明)。2) 跨视角聚类的算法选择(具体算法未知,原文未详细说明)。3) 全局特征的加权聚合策略(具体权重计算方法未知,原文未详细说明)。4) 语义融合的具体实现方式(例如,如何将全局特征融入高斯分布的参数中,原文未详细说明)。
📊 实验亮点
ProFuse在开放词汇3D场景理解任务中取得了显著的性能提升。它能够在约五分钟内完成每个场景的语义附加,比SOTA方法快两倍。此外,ProFuse在保持几何精度的同时,实现了高效的跨视角语义一致性,无需渲染监督微调。
🎯 应用场景
ProFuse在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,ProFuse可以用于场景理解和语义分割,提高驾驶安全性。在增强现实领域,ProFuse可以用于创建更逼真的虚拟环境,并实现更自然的交互。
📄 摘要(原文)
We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.