Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D

作者: Sergio Arnaud, Paul McVay, Ada Martin, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-04-19

💡 一句话要点

LOCATE 3D：通过3D自监督学习实现真实世界物体定位

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D物体定位 自监督学习 点云处理 指代 grounding 机器人视觉

📋 核心要点

现有方法在3D场景中根据自然语言描述定位特定物体时，泛化能力和真实场景部署能力不足。
LOCATE 3D利用3D-JEPA进行自监督学习，提取上下文相关的点云特征，并结合语言条件解码器进行联合预测。
LOCATE 3D在指代 grounding 基准测试上取得了新的state-of-the-art，并展示了在真实机器人和AR设备上的部署潜力。

📝 摘要（中文）

本文提出了LOCATE 3D，一个用于从指代表达式（例如“沙发和灯之间的小咖啡桌”）在3D场景中定位物体的模型。LOCATE 3D在标准指代 grounding 基准测试上取得了新的state-of-the-art，并展示了强大的泛化能力。值得注意的是，LOCATE 3D直接在传感器观测流（带姿态的RGB-D帧）上运行，从而可以在机器人和AR设备上进行真实世界的部署。该方法的关键是3D-JEPA，一种适用于传感器点云的新型自监督学习（SSL）算法。它以使用2D基础模型（CLIP，DINO）进行特征化的3D点云作为输入。随后，在潜在空间中进行掩码预测作为预训练任务，以辅助上下文点云特征的自监督学习。训练完成后，3D-JEPA编码器与语言条件解码器一起进行微调，以联合预测3D掩码和边界框。此外，我们还引入了LOCATE 3D DATASET，这是一个新的3D指代 grounding 数据集，跨越多个捕获设置，包含超过13万个注释。这使得能够系统地研究泛化能力，并获得更强大的模型。

🔬 方法详解

问题定义：论文旨在解决3D场景中基于自然语言描述的物体定位问题。现有方法通常依赖于大量标注数据，泛化能力有限，难以适应真实世界的复杂环境，且直接在原始点云上操作计算成本高昂。

核心思路：论文的核心思路是利用自监督学习（SSL）从无标注的3D点云数据中学习到鲁棒的上下文特征表示，然后结合语言信息进行物体定位。通过预训练的3D-JEPA编码器提取点云特征，再通过微调的方式，使模型能够理解语言描述并定位目标物体。

技术框架：LOCATE 3D的整体框架包括以下几个主要阶段：1) 使用2D基础模型（CLIP, DINO）对RGB-D帧进行特征提取；2) 使用3D-JEPA进行自监督学习，训练点云编码器；3) 将训练好的3D-JEPA编码器与语言条件解码器结合，进行微调，联合预测3D掩码和边界框。整个流程从传感器数据输入开始，最终输出目标物体的3D位置信息。

关键创新：最重要的技术创新点是3D-JEPA自监督学习算法，它通过在潜在空间中进行掩码预测，使得模型能够学习到点云的上下文信息，从而提高特征的鲁棒性和泛化能力。与传统的监督学习方法相比，3D-JEPA能够利用大量的无标注数据进行预训练，降低了对标注数据的依赖。

关键设计：3D-JEPA的关键设计包括：1) 使用2D基础模型提取点云特征；2) 在潜在空间中进行掩码预测，作为自监督学习的预训练任务；3) 使用Transformer架构构建编码器和解码器；4) 设计合适的损失函数，包括掩码预测损失和边界框回归损失。

🖼️ 关键图片

📊 实验亮点

LOCATE 3D在标准指代 grounding 基准测试上取得了新的state-of-the-art，证明了其优越的性能。此外，该模型在多个捕获设置下进行了测试，展示了强大的泛化能力。LOCATE 3D DATASET的引入，为3D指代 grounding 领域的研究提供了有力的数据支持。

🎯 应用场景

LOCATE 3D具有广泛的应用前景，包括机器人导航、增强现实、智能家居、自动驾驶等领域。例如，在机器人导航中，机器人可以根据用户的自然语言指令，在复杂的环境中定位并抓取目标物体。在增强现实中，用户可以通过语音或文本与虚拟物体进行交互，实现更加自然和直观的人机交互。

📄 摘要（原文）

We present LOCATE 3D, a model for localizing objects in 3D scenes from referring expressions like "the small coffee table between the sofa and the lamp." LOCATE 3D sets a new state-of-the-art on standard referential grounding benchmarks and showcases robust generalization capabilities. Notably, LOCATE 3D operates directly on sensor observation streams (posed RGB-D frames), enabling real-world deployment on robots and AR devices. Key to our approach is 3D-JEPA, a novel self-supervised learning (SSL) algorithm applicable to sensor point clouds. It takes as input a 3D pointcloud featurized using 2D foundation models (CLIP, DINO). Subsequently, masked prediction in latent space is employed as a pretext task to aid the self-supervised learning of contextualized pointcloud features. Once trained, the 3D-JEPA encoder is finetuned alongside a language-conditioned decoder to jointly predict 3D masks and bounding boxes. Additionally, we introduce LOCATE 3D DATASET, a new dataset for 3D referential grounding, spanning multiple capture setups with over 130K annotations. This enables a systematic study of generalization capabilities as well as a stronger model.

Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理