TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting

作者: Yuyang Tan, Renhe Zhang, Hang Zhang, Ao Li, Xin Tan

分类: cs.CV, cs.LG

发布日期: 2026-05-26

💡 一句话要点

TrackRef3D：提出多视角一致的Track-then-Label方法，用于3D高斯溅射中的开放世界指代分割。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D指代分割 高斯溅射 多视角一致性 开放世界 轨迹跟踪

📋 核心要点

现有3D指代分割方法依赖昂贵的场景标注和单视角伪标签生成，存在多视角不一致和泛化性差的问题。
TrackRef3D提出多视角一致的track-then-label范式，解耦对象发现和语义对齐，避免人工标注和伪标签。
提出的TSCM模块和混合训练策略，有效提升了多视角一致性和对不同查询的鲁棒性，实验结果SOTA。

📝 摘要（中文）

本文提出TrackRef3D，一个全自动的流水线，用于在3D高斯溅射(3DGS)中实现开放世界指代分割，无需手动标注。该方法引入了一种多视角一致的track-then-label范式，从根本上将对象发现与语义对齐解耦。具体而言，我们提出了轨迹感知语义共识模块(TSCM)，该模块通过同义词聚类和轨迹感知投票聚合跨视角的预测，以建立规范的语义身份，从而确保多视角一致性。此外，我们采用了一种可见性感知的描述生成策略来减轻歧义，并提出了一种混合训练策略(HTS)，该策略联合优化粗粒度的类别语义和细粒度的指代线索，以使用多正对比目标确保在不同查询特异性下的鲁棒性。在基准测试上的大量实验表明，TrackRef3D实现了最先进的性能。

🔬 方法详解

问题定义：现有的3D指代分割方法，特别是基于3D高斯溅射(3DGS)的方法，通常需要大量的场景手动标注，并且依赖于单视角伪标签的生成。这导致两个主要问题：一是标注成本高昂，限制了模型在更大规模数据集上的应用；二是单视角伪标签容易出现多视角不一致性，影响分割的准确性，并且模型对不同查询的泛化能力较差。

核心思路：TrackRef3D的核心思路是将对象发现与语义对齐解耦，采用一种“track-then-label”的范式。首先，通过跟踪算法在多个视角下发现潜在的对象轨迹；然后，利用语义共识模块为每个轨迹赋予一致的语义标签。这种解耦的设计避免了对单视角伪标签的依赖，从而提高了多视角一致性和泛化能力。

技术框架：TrackRef3D的整体框架包含以下几个主要模块：1) 多视角图像输入和特征提取；2) 基于跟踪算法的对象轨迹生成；3) 轨迹感知语义共识模块(TSCM)，用于聚合跨视角的语义预测，并赋予每个轨迹一致的语义标签；4) 可见性感知的描述生成策略，用于生成更清晰的指代描述；5) 混合训练策略(HTS)，联合优化粗粒度的类别语义和细粒度的指代线索。

关键创新：TrackRef3D的关键创新在于其多视角一致的track-then-label范式和轨迹感知语义共识模块(TSCM)。与现有方法依赖单视角伪标签不同，TrackRef3D通过跟踪算法和语义共识模块，实现了跨视角的语义一致性，从而提高了分割的准确性和鲁棒性。此外，混合训练策略(HTS)通过联合优化粗粒度和细粒度的语义信息，增强了模型对不同查询的泛化能力。

关键设计：TSCM模块利用同义词聚类和轨迹感知投票机制，将来自不同视角的语义预测进行聚合。具体来说，首先使用预训练的语言模型将不同视角的语义描述进行编码，然后通过聚类算法将语义相似的描述归为一类。接着，利用轨迹信息对每个聚类中的语义描述进行加权投票，从而得到最终的语义标签。HTS采用多正对比损失函数，同时优化粗粒度的类别语义和细粒度的指代线索，以提高模型对不同查询的鲁棒性。可见性感知的描述生成策略，通过考虑每个视角下对象的可见性，生成更准确的指代描述。

🖼️ 关键图片

📊 实验亮点

TrackRef3D在多个基准测试上取得了state-of-the-art的性能。具体来说，相较于现有方法，TrackRef3D在分割准确率上取得了显著提升，尤其是在多视角一致性和对不同查询的鲁棒性方面。实验结果表明，TrackRef3D能够有效地处理复杂的场景和模糊的指代描述，具有很强的实用价值。

🎯 应用场景

TrackRef3D在机器人导航、自动驾驶、虚拟现实等领域具有广泛的应用前景。例如，在机器人导航中，机器人可以根据自然语言指令，识别并定位场景中的特定物体，从而完成复杂的任务。在自动驾驶中，车辆可以根据乘客的指令，识别并跟踪特定的车辆或行人。在虚拟现实中，用户可以通过自然语言与虚拟环境中的物体进行交互。

📄 摘要（原文）

Referring 3D Gaussian Splatting (R3DGS), which utilizes natural language for 3D object segmentation, has emerged as a crucial capability for embodied AI. However, existing methods typically rely on expensive per-scene manual annotation and per-view pseudo mask generation, which suffer from multi-view inconsistency and poor generalization to varying query specificities. To address this, we present TrackRef3D, a fully automatic pipeline that achieves open-world referring segmentation in 3D Gaussian Splatting (3DGS) without manual annotation by introducing a multi-view consistent track-then-label paradigm that fundamentally decouples object discovery from semantic grounding. Specifically, we propose a Trajectory-Aware Semantic Consensus Module (TSCM) which aggregates cross-view predictions via synonymous clustering and trajectory-aware voting to establish a canonical semantic identity, thereby ensuring multi-view consistency. Furthermore, we employ a visibility-aware description generation strategy to mitigate ambiguity and propose a Hybrid Training Strategy (HTS) that jointly optimizes coarse category semantics and fine-grained referential cues to ensure robustness under varying query specificities using a multi-positive contrastive objective. Extensive experiments on benchmarks demonstrate that TrackRef3D achieves state-of-the-art performance.

TrackRef3D: Multi-View Consistent Track-then-Label for Open-World Referring Segmentation in 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理