Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D

📄 arXiv: 2504.14151v1 📥 PDF

作者: Sergio Arnaud, Paul McVay, Ada Martin, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-04-19


💡 一句话要点

LOCATE 3D:通过3D自监督学习实现真实世界物体定位

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D物体定位 自监督学习 点云处理 指代 grounding 机器人视觉

📋 核心要点

  1. 现有方法在3D场景中根据自然语言描述定位特定物体时,泛化能力和真实场景部署能力不足。
  2. LOCATE 3D利用3D-JEPA进行自监督学习,提取上下文相关的点云特征,并结合语言条件解码器进行联合预测。
  3. LOCATE 3D在指代 grounding 基准测试上取得了新的state-of-the-art,并展示了在真实机器人和AR设备上的部署潜力。

📝 摘要(中文)

本文提出了LOCATE 3D,一个用于从指代表达式(例如“沙发和灯之间的小咖啡桌”)在3D场景中定位物体的模型。LOCATE 3D在标准指代 grounding 基准测试上取得了新的state-of-the-art,并展示了强大的泛化能力。值得注意的是,LOCATE 3D直接在传感器观测流(带姿态的RGB-D帧)上运行,从而可以在机器人和AR设备上进行真实世界的部署。该方法的关键是3D-JEPA,一种适用于传感器点云的新型自监督学习(SSL)算法。它以使用2D基础模型(CLIP,DINO)进行特征化的3D点云作为输入。随后,在潜在空间中进行掩码预测作为预训练任务,以辅助上下文点云特征的自监督学习。训练完成后,3D-JEPA编码器与语言条件解码器一起进行微调,以联合预测3D掩码和边界框。此外,我们还引入了LOCATE 3D DATASET,这是一个新的3D指代 grounding 数据集,跨越多个捕获设置,包含超过13万个注释。这使得能够系统地研究泛化能力,并获得更强大的模型。

🔬 方法详解

问题定义:论文旨在解决3D场景中基于自然语言描述的物体定位问题。现有方法通常依赖于大量标注数据,泛化能力有限,难以适应真实世界的复杂环境,且直接在原始点云上操作计算成本高昂。

核心思路:论文的核心思路是利用自监督学习(SSL)从无标注的3D点云数据中学习到鲁棒的上下文特征表示,然后结合语言信息进行物体定位。通过预训练的3D-JEPA编码器提取点云特征,再通过微调的方式,使模型能够理解语言描述并定位目标物体。

技术框架:LOCATE 3D的整体框架包括以下几个主要阶段:1) 使用2D基础模型(CLIP, DINO)对RGB-D帧进行特征提取;2) 使用3D-JEPA进行自监督学习,训练点云编码器;3) 将训练好的3D-JEPA编码器与语言条件解码器结合,进行微调,联合预测3D掩码和边界框。整个流程从传感器数据输入开始,最终输出目标物体的3D位置信息。

关键创新:最重要的技术创新点是3D-JEPA自监督学习算法,它通过在潜在空间中进行掩码预测,使得模型能够学习到点云的上下文信息,从而提高特征的鲁棒性和泛化能力。与传统的监督学习方法相比,3D-JEPA能够利用大量的无标注数据进行预训练,降低了对标注数据的依赖。

关键设计:3D-JEPA的关键设计包括:1) 使用2D基础模型提取点云特征;2) 在潜在空间中进行掩码预测,作为自监督学习的预训练任务;3) 使用Transformer架构构建编码器和解码器;4) 设计合适的损失函数,包括掩码预测损失和边界框回归损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LOCATE 3D在标准指代 grounding 基准测试上取得了新的state-of-the-art,证明了其优越的性能。此外,该模型在多个捕获设置下进行了测试,展示了强大的泛化能力。LOCATE 3D DATASET的引入,为3D指代 grounding 领域的研究提供了有力的数据支持。

🎯 应用场景

LOCATE 3D具有广泛的应用前景,包括机器人导航、增强现实、智能家居、自动驾驶等领域。例如,在机器人导航中,机器人可以根据用户的自然语言指令,在复杂的环境中定位并抓取目标物体。在增强现实中,用户可以通过语音或文本与虚拟物体进行交互,实现更加自然和直观的人机交互。

📄 摘要(原文)

We present LOCATE 3D, a model for localizing objects in 3D scenes from referring expressions like "the small coffee table between the sofa and the lamp." LOCATE 3D sets a new state-of-the-art on standard referential grounding benchmarks and showcases robust generalization capabilities. Notably, LOCATE 3D operates directly on sensor observation streams (posed RGB-D frames), enabling real-world deployment on robots and AR devices. Key to our approach is 3D-JEPA, a novel self-supervised learning (SSL) algorithm applicable to sensor point clouds. It takes as input a 3D pointcloud featurized using 2D foundation models (CLIP, DINO). Subsequently, masked prediction in latent space is employed as a pretext task to aid the self-supervised learning of contextualized pointcloud features. Once trained, the 3D-JEPA encoder is finetuned alongside a language-conditioned decoder to jointly predict 3D masks and bounding boxes. Additionally, we introduce LOCATE 3D DATASET, a new dataset for 3D referential grounding, spanning multiple capture setups with over 130K annotations. This enables a systematic study of generalization capabilities as well as a stronger model.