ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting

📄 arXiv: 2601.04754v1 📥 PDF

作者: Yen-Jen Chiou, Wei-Tse Cheng, Yuan-Fu Yang

分类: cs.CV

发布日期: 2026-01-08

备注: 10 pages, 5 figures


💡 一句话要点

ProFuse:高效跨视角上下文融合的开放词汇3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 开放词汇场景理解 跨视角融合 上下文感知 语义分割

📋 核心要点

  1. 现有开放词汇3D场景理解方法计算成本高昂,依赖预训练模型,且难以保证跨视角语义一致性。
  2. ProFuse通过密集对应关系引导的预配准和跨视角聚类构建3D上下文提议,实现高效的语义融合。
  3. 实验表明,ProFuse在保证几何精度的前提下,显著提升了开放词汇3DGS理解的速度,比SOTA方法快两倍。

📝 摘要(中文)

本文提出ProFuse,一个高效的上下文感知框架,用于基于3D高斯溅射(3DGS)的开放词汇3D场景理解。该流程增强了直接配准设置中的跨视角一致性和mask内的内聚性,同时增加了最小的开销,并且不需要渲染监督的微调。与依赖预训练的3DGS场景不同,我们引入了一个密集的对应关系引导的预配准阶段,该阶段初始化具有精确几何形状的高斯分布,同时通过跨视角聚类构建3D上下文提议。每个提议都携带一个全局特征,该特征通过成员嵌入的加权聚合获得,并且该特征在直接配准期间融合到高斯分布上,以保持跨视角的每个图元的语言连贯性。由于预先建立了关联,语义融合不需要超出标准重建的额外优化,并且该模型保留了几何细化而无需密集化。ProFuse实现了强大的开放词汇3DGS理解,同时在每个场景中大约五分钟内完成语义附加,这比SOTA快两倍。

🔬 方法详解

问题定义:现有开放词汇3D场景理解方法,特别是基于3D高斯溅射的方法,通常需要耗时的渲染监督微调或依赖于预训练的3DGS场景,导致计算成本高昂,且难以保证跨视角语义一致性。此外,如何有效地将语言信息融入到3D高斯图元中,并保持几何结构的精确性,是一个挑战。

核心思路:ProFuse的核心思路是通过预先建立跨视角的语义关联,减少后续优化过程中的计算量。具体而言,首先通过密集对应关系引导的预配准,初始化具有精确几何形状的高斯分布。然后,通过跨视角聚类构建3D上下文提议,每个提议携带全局特征,并在直接配准期间融合到高斯分布上,从而实现高效的语义融合和跨视角一致性。

技术框架:ProFuse的整体框架包含两个主要阶段:预配准阶段和直接配准阶段。在预配准阶段,首先利用密集对应关系估计初始化高斯分布的几何形状。然后,通过跨视角聚类生成3D上下文提议,并提取每个提议的全局特征。在直接配准阶段,将这些全局特征融合到高斯分布中,并进行标准的高斯溅射优化,以实现几何结构的细化和语义信息的融合。

关键创新:ProFuse的关键创新在于其高效的跨视角上下文融合机制。通过预先建立跨视角的语义关联,避免了耗时的渲染监督微调,并显著提升了语义融合的速度。此外,ProFuse在保持几何结构精确性的同时,实现了高效的语义信息融合,从而提升了开放词汇3D场景理解的性能。

关键设计:ProFuse的关键设计包括:1) 密集对应关系引导的预配准,利用图像特征的对应关系初始化高斯分布的几何形状;2) 跨视角聚类,通过聚类来自不同视角的特征向量,生成3D上下文提议;3) 全局特征融合,将每个提议的全局特征融合到高斯分布中,以实现语义信息的传递。具体参数设置和损失函数细节在论文正文中详细描述。

📊 实验亮点

ProFuse在开放词汇3DGS理解任务中取得了显著的性能提升。实验结果表明,ProFuse在保证几何精度的前提下,实现了比SOTA方法快两倍的语义附加速度。具体而言,ProFuse可以在大约五分钟内完成每个场景的语义附加,而SOTA方法需要十分钟以上。此外,ProFuse在跨视角一致性和mask内内聚性方面也表现出优异的性能。

🎯 应用场景

ProFuse在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,ProFuse可以用于场景理解和目标检测,提高驾驶安全性。在VR/AR领域,ProFuse可以用于构建更逼真的3D场景,提升用户体验。未来,该技术有望应用于更广泛的3D场景理解和重建任务中。

📄 摘要(原文)

We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.