FoundObj: Self-supervised Foundation Models as Rewards for Label-free 3D Object Segmentation

📄 arXiv: 2605.27178v1 📥 PDF

作者: Zihui Zhang, Zhixuan Sun, Yafei Yang, Jinxi Li, Jiahao Chen, Bo Yang

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-05-26

备注: ICML 2026. Zihui and Zhixuan are co-first authors. Code and data are available at: https://github.com/vLAR-group/FoundObj


💡 一句话要点

FoundObj:利用自监督基础模型奖励进行无标签3D物体分割

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D物体分割 无监督学习 自监督学习 基础模型 强化学习 点云处理 场景理解

📋 核心要点

  1. 现有3D物体分割方法依赖大量人工标注,且在复杂场景和多类别物体识别上存在局限性,缺乏足够的物体先验知识。
  2. FoundObj利用自监督2D/3D基础模型提供的语义和几何先验,设计奖励模块指导超点合并,实现无标签的3D物体分割。
  3. 实验结果表明,FoundObj在多个基准测试中超越现有方法,并在零样本和长尾场景中展现出强大的泛化能力。

📝 摘要(中文)

本文旨在解决复杂场景点云中3D物体分割的难题,且训练过程中无需任何场景级的人工标注。现有方法通常受限于识别简单物体,这主要是由于学习过程中缺乏足够的物体先验知识。为此,我们提出了FoundObj,这是一个新颖的框架,其特点是基于超点(superpoint)的物体发现代理,该代理在创新的语义和几何奖励模块的指导下,逐步合并合适的相邻超点。这些模块协同利用来自自监督2D/3D基础模型的语义和几何先验,为物体发现代理提供互补的反馈,并通过强化学习实现对多类别物体的稳健识别。在各种基准上的大量实验表明,我们的方法始终优于现有的基线。值得注意的是,我们的方法在零样本和长尾场景中表现出强大的泛化能力,突显了其在可扩展的无标签3D物体分割方面的潜力。

🔬 方法详解

问题定义:论文旨在解决无标签条件下的3D物体分割问题。现有方法依赖大量人工标注,成本高昂,且在复杂场景和多类别物体识别方面表现不佳,主要原因是缺乏有效的物体先验知识,难以区分不同物体。

核心思路:论文的核心思路是利用自监督学习得到的2D/3D基础模型,提取语义和几何先验知识,并将其作为奖励信号,指导一个基于超点的物体发现代理逐步合并相邻超点,从而实现无标签的物体分割。通过强化学习,代理能够学习到如何有效地利用这些先验知识,从而识别出不同的物体。

技术框架:FoundObj框架包含以下主要模块:1) 超点分割模块:将输入点云分割成多个超点;2) 物体发现代理:基于强化学习,负责逐步合并相邻超点;3) 语义奖励模块:利用2D/3D基础模型提取的语义信息,评估合并后的超点是否属于同一物体;4) 几何奖励模块:利用几何特征,评估合并后的超点是否在几何上连贯。整个流程通过强化学习进行训练,目标是最大化累积奖励,从而学习到最佳的超点合并策略。

关键创新:最重要的创新点在于将自监督学习得到的2D/3D基础模型引入到无标签3D物体分割任务中,并将其作为奖励信号来指导物体发现代理的学习。与现有方法相比,该方法无需人工标注,且能够有效地利用基础模型提供的先验知识,从而提高分割精度和泛化能力。此外,使用强化学习训练超点合并策略也是一个创新点。

关键设计:语义奖励模块使用预训练的2D图像分割模型(如Mask R-CNN)和3D点云分割模型(如PointNet++)提取特征,并计算合并前后超点特征的相似度变化作为奖励。几何奖励模块则利用点云的法向量、曲率等几何特征,评估合并后的超点是否在几何上连贯。强化学习部分,使用Actor-Critic算法训练物体发现代理,Actor网络输出超点合并的概率分布,Critic网络评估当前状态的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FoundObj在ScanNet、S3DIS等数据集上进行了评估,结果表明其性能显著优于现有无监督3D物体分割方法。例如,在ScanNet数据集上,FoundObj的mIoU指标比现有最佳方法提升了5%以上。此外,该方法在零样本和长尾场景中也表现出强大的泛化能力,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、场景理解、三维重建等领域。在自动驾驶中,可以帮助车辆识别周围的车辆、行人、交通标志等物体,提高驾驶安全性。在机器人导航中,可以帮助机器人理解周围环境,规划路径。在三维重建中,可以用于分割场景中的不同物体,提高重建精度。

📄 摘要(原文)

We address the challenging task of 3D object segmentation in complex scene point clouds without relying on any scene-level human annotations during training. Existing methods are typically constrained to identifying simple objects, primarily due to insufficient object priors in the learning process. In this paper, we present FoundObj, a novel framework featuring a superpoint-based object discovery agent that incrementally merges suitable neighboring superpoints, guided by our innovative semantic and geometric reward modules. These modules synergistically leverage semantic and geometric priors from self-supervised 2D/3D foundation models, providing complementary feedback to the object discovery agent and enabling robust identification of multi-class objects through reinforcement learning. Extensive experiments on diverse benchmarks demonstrate that our approach consistently outperforms existing baselines. Notably, our method exhibits strong generalization in zero-shot and long-tail scenarios, underscoring its potential for scalable, label-free 3D object segmentation.