OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction

作者: Hongyang Li, Jinyuan Qu, Lei Zhang

分类: cs.CV

发布日期: 2025-09-28 (更新: 2026-01-05)

💡 一句话要点

OVSeg3R：通过3D重建从2D学习开放词汇实例分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 3D实例分割 3D重建 伪标签 跨模态学习 机器人视觉 场景理解

📋 核心要点

现有3D实例分割方法依赖于封闭词汇，且标注成本高昂，难以泛化到开放词汇场景。
OVSeg3R利用2D开放词汇模型和3D重建技术，将2D的知识迁移到3D，自动生成3D实例分割的训练数据。
通过View-wise Instance Partition和2D Instance Boundary-aware Superpoint，有效解决了2D到3D投影带来的噪声和几何细节丢失问题，提升了分割精度。

📝 摘要（中文）

本文提出了一种名为OVSeg3R的训练方案，借助3D重建，从充分研究的2D感知模型中学习开放词汇3D实例分割。OVSeg3R直接采用从2D视频重建的场景作为输入，避免了昂贵的手动调整，同时使输入与实际应用对齐。通过利用3D重建模型提供的2D到3D的对应关系，OVSeg3R将每个视图的2D实例掩码预测（从开放词汇2D模型获得）投影到3D，从而为该视图对应的子场景生成注释。为了避免由于2D到3D的部分注释而错误地引入假阳性作为监督，我们提出了一种View-wise Instance Partition算法，该算法将预测划分到各自的视图以进行监督，从而稳定训练过程。此外，由于3D重建模型倾向于过度平滑几何细节，因此仅基于几何形状将重建的点聚类成代表性的超点（如主流3D分割方法中常见的做法）可能会忽略几何上不显著的对象。因此，我们引入了2D Instance Boundary-aware Superpoint，它利用2D掩码来约束超点聚类，防止超点违反实例边界。通过这些设计，OVSeg3R不仅将最先进的封闭词汇3D实例分割模型扩展到开放词汇，而且大大缩小了尾部类和头部类之间的性能差距，最终在ScanNet200基准测试上实现了+2.3 mAP的总体改进。此外，在标准开放词汇设置下，OVSeg3R超过了以前的方法约+7.1 mAP的新类别，进一步验证了其有效性。

🔬 方法详解

问题定义：现有的3D实例分割方法通常依赖于封闭词汇表，即模型只能识别预先定义的类别。此外，3D数据的标注成本非常高，限制了模型在开放词汇场景下的应用。因此，如何利用已有的2D开放词汇知识，高效地训练3D开放词汇实例分割模型是一个关键问题。

核心思路：OVSeg3R的核心思路是利用3D重建技术，将2D开放词汇实例分割模型的预测结果投影到3D空间，从而自动生成3D实例分割的训练数据。通过这种方式，可以避免手动标注3D数据的昂贵成本，并利用2D模型的泛化能力，实现3D开放词汇实例分割。

技术框架：OVSeg3R的整体框架包括以下几个主要阶段：1) 使用2D开放词汇实例分割模型对视频帧进行分割，得到2D实例掩码。2) 使用3D重建模型将视频帧重建为3D场景。3) 将2D实例掩码投影到3D空间，为3D场景生成伪标签。4) 使用View-wise Instance Partition算法，将预测划分到各自的视图以进行监督，稳定训练过程。5) 使用2D Instance Boundary-aware Superpoint算法，利用2D掩码来约束超点聚类，防止超点违反实例边界。6) 使用生成的伪标签训练3D实例分割模型。

关键创新：OVSeg3R的关键创新在于：1) 利用2D开放词汇模型和3D重建技术，自动生成3D实例分割的训练数据，避免了昂贵的手动标注。2) 提出了View-wise Instance Partition算法，解决了2D到3D投影带来的噪声问题。3) 提出了2D Instance Boundary-aware Superpoint算法，解决了3D重建模型过度平滑几何细节的问题。

关键设计：View-wise Instance Partition算法将每个3D点云划分到对应的2D视图，只使用该视图的2D预测结果作为监督信号，从而减少了噪声。2D Instance Boundary-aware Superpoint算法在超点聚类时，考虑了2D实例边界的信息，防止超点跨越不同的实例。损失函数包括分割损失和聚类损失，用于优化3D实例分割模型。

🖼️ 关键图片

📊 实验亮点

OVSeg3R在ScanNet200基准测试上取得了显著的性能提升。与之前的封闭词汇3D实例分割模型相比，OVSeg3R在总体mAP上提升了+2.3。在标准开放词汇设置下，OVSeg3R超过了以前的方法约+7.1 mAP的新类别，验证了其在开放词汇场景下的有效性。

🎯 应用场景

OVSeg3R在机器人导航、自动驾驶、场景理解等领域具有广泛的应用前景。它可以使机器人在未知的环境中识别和分割各种物体，从而实现更智能的交互和决策。此外，该方法还可以用于3D场景编辑、虚拟现实等领域，提高用户体验。

📄 摘要（原文）

In this paper, we propose a training scheme called OVSeg3R to learn open-vocabulary 3D instance segmentation from well-studied 2D perception models with the aid of 3D reconstruction. OVSeg3R directly adopts reconstructed scenes from 2D videos as input, avoiding costly manual adjustment while aligning input with real-world applications. By exploiting the 2D to 3D correspondences provided by 3D reconstruction models, OVSeg3R projects each view's 2D instance mask predictions, obtained from an open-vocabulary 2D model, onto 3D to generate annotations for the view's corresponding sub-scene. To avoid incorrectly introduced false positives as supervision due to partial annotations from 2D to 3D, we propose a View-wise Instance Partition algorithm, which partitions predictions to their respective views for supervision, stabilizing the training process. Furthermore, since 3D reconstruction models tend to over-smooth geometric details, clustering reconstructed points into representative super-points based solely on geometry, as commonly done in mainstream 3D segmentation methods, may overlook geometrically non-salient objects. We therefore introduce 2D Instance Boundary-aware Superpoint, which leverages 2D masks to constrain the superpoint clustering, preventing superpoints from violating instance boundaries. With these designs, OVSeg3R not only extends a state-of-the-art closed-vocabulary 3D instance segmentation model to open-vocabulary, but also substantially narrows the performance gap between tail and head classes, ultimately leading to an overall improvement of +2.3 mAP on the ScanNet200 benchmark. Furthermore, under the standard open-vocabulary setting, OVSeg3R surpasses previous methods by about +7.1 mAP on the novel classes, further validating its effectiveness.

OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理