TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting

📄 arXiv: 2605.26576v1 📥 PDF

作者: Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan

分类: cs.CV, cs.LG

发布日期: 2026-05-26


💡 一句话要点

TrackRef3D:提出多视角一致的Track-then-Label方法,用于3D高斯溅射中的开放世界指代分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D指代分割 高斯溅射 多视角一致性 开放世界 轨迹跟踪

📋 核心要点

  1. 现有3D指代分割方法依赖昂贵的场景标注和单视角伪标签生成,存在多视角不一致和泛化性差的问题。
  2. TrackRef3D提出多视角一致的track-then-label范式,解耦对象发现和语义对齐,避免人工标注和伪标签。
  3. 提出的TSCM模块和混合训练策略,有效提升了多视角一致性和对不同查询的鲁棒性,实验结果SOTA。

📝 摘要(中文)

本文提出TrackRef3D,一个全自动的流水线,用于在3D高斯溅射(3DGS)中实现开放世界指代分割,无需手动标注。该方法引入了一种多视角一致的track-then-label范式,从根本上将对象发现与语义对齐解耦。具体而言,我们提出了轨迹感知语义共识模块(TSCM),该模块通过同义词聚类和轨迹感知投票聚合跨视角的预测,以建立规范的语义身份,从而确保多视角一致性。此外,我们采用了一种可见性感知的描述生成策略来减轻歧义,并提出了一种混合训练策略(HTS),该策略联合优化粗粒度的类别语义和细粒度的指代线索,以使用多正对比目标确保在不同查询特异性下的鲁棒性。在基准测试上的大量实验表明,TrackRef3D实现了最先进的性能。

🔬 方法详解

问题定义:现有的3D指代分割方法,特别是基于3D高斯溅射(3DGS)的方法,通常需要大量的场景手动标注,并且依赖于单视角伪标签的生成。这导致两个主要问题:一是标注成本高昂,限制了模型在更大规模数据集上的应用;二是单视角伪标签容易出现多视角不一致性,影响分割的准确性,并且模型对不同查询的泛化能力较差。

核心思路:TrackRef3D的核心思路是将对象发现与语义对齐解耦,采用一种“track-then-label”的范式。首先,通过跟踪算法在多个视角下发现潜在的对象轨迹;然后,利用语义共识模块为每个轨迹赋予一致的语义标签。这种解耦的设计避免了对单视角伪标签的依赖,从而提高了多视角一致性和泛化能力。

技术框架:TrackRef3D的整体框架包含以下几个主要模块:1) 多视角图像输入和特征提取;2) 基于跟踪算法的对象轨迹生成;3) 轨迹感知语义共识模块(TSCM),用于聚合跨视角的语义预测,并赋予每个轨迹一致的语义标签;4) 可见性感知的描述生成策略,用于生成更清晰的指代描述;5) 混合训练策略(HTS),联合优化粗粒度的类别语义和细粒度的指代线索。

关键创新:TrackRef3D的关键创新在于其多视角一致的track-then-label范式和轨迹感知语义共识模块(TSCM)。与现有方法依赖单视角伪标签不同,TrackRef3D通过跟踪算法和语义共识模块,实现了跨视角的语义一致性,从而提高了分割的准确性和鲁棒性。此外,混合训练策略(HTS)通过联合优化粗粒度和细粒度的语义信息,增强了模型对不同查询的泛化能力。

关键设计:TSCM模块利用同义词聚类和轨迹感知投票机制,将来自不同视角的语义预测进行聚合。具体来说,首先使用预训练的语言模型将不同视角的语义描述进行编码,然后通过聚类算法将语义相似的描述归为一类。接着,利用轨迹信息对每个聚类中的语义描述进行加权投票,从而得到最终的语义标签。HTS采用多正对比损失函数,同时优化粗粒度的类别语义和细粒度的指代线索,以提高模型对不同查询的鲁棒性。可见性感知的描述生成策略,通过考虑每个视角下对象的可见性,生成更准确的指代描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TrackRef3D在多个基准测试上取得了state-of-the-art的性能。具体来说,相较于现有方法,TrackRef3D在分割准确率上取得了显著提升,尤其是在多视角一致性和对不同查询的鲁棒性方面。实验结果表明,TrackRef3D能够有效地处理复杂的场景和模糊的指代描述,具有很强的实用价值。

🎯 应用场景

TrackRef3D在机器人导航、自动驾驶、虚拟现实等领域具有广泛的应用前景。例如,在机器人导航中,机器人可以根据自然语言指令,识别并定位场景中的特定物体,从而完成复杂的任务。在自动驾驶中,车辆可以根据乘客的指令,识别并跟踪特定的车辆或行人。在虚拟现实中,用户可以通过自然语言与虚拟环境中的物体进行交互。

📄 摘要(原文)

Referring 3D Gaussian Splatting (R3DGS), which utilizes natural language for 3D object segmentation, has emerged as a crucial capability for embodied AI. However, existing methods typically rely on expensive per-scene manual annotation and per-view pseudo mask generation, which suffer from multi-view inconsistency and poor generalization to varying query specificities. To address this, we present TrackRef3D, a fully automatic pipeline that achieves open-world referring segmentation in 3D Gaussian Splatting (3DGS) without manual annotation by introducing a multi-view consistent track-then-label paradigm that fundamentally decouples object discovery from semantic grounding. Specifically, we propose a Trajectory-Aware Semantic Consensus Module (TSCM) which aggregates cross-view predictions via synonymous clustering and trajectory-aware voting to establish a canonical semantic identity, thereby ensuring multi-view consistency. Furthermore, we employ a visibility-aware description generation strategy to mitigate ambiguity and propose a Hybrid Training Strategy (HTS) that jointly optimizes coarse category semantics and fine-grained referential cues to ensure robustness under varying query specificities using a multi-positive contrastive objective. Extensive experiments on benchmarks demonstrate that TrackRef3D achieves state-of-the-art performance.