SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding

作者: Nikolay Nikolov, Giuliano Albanese, Sombit Dey, Aleksandar Yanev, Luc Van Gool, Jan-Nico Zaech, Danda Pani Paudel

分类: cs.RO, cs.LG

发布日期: 2025-11-21

💡 一句话要点

SPEAR-1：通过3D理解扩展机器人演示学习能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人基础模型 3D感知 视觉-语言模型 具身控制 机器人学习

📋 核心要点

现有机器人基础模型依赖2D视觉-语言模型，缺乏3D空间推理能力，限制了其在复杂环境中的泛化性。
SPEAR-1通过3D标注增强非机器人图像数据，提升视觉-语言模型的3D理解能力，从而改善机器人控制。
SPEAR-1在大量数据集上训练，仅使用少量机器人演示数据，性能超越现有模型，显著提升了具身控制的可靠性。

📝 摘要（中文）

机器人基础模型（RFMs）作为通用、端到端机器人控制系统展现出巨大潜力。然而，它们在新环境、任务和形态上的泛化能力仍然有限。一个主要瓶颈在于其基础：大多数RFMs通过微调互联网预训练的视觉-语言模型（VLMs）构建。这些VLMs在2D图像-语言任务上训练，缺乏3D空间推理能力，而这对于3D世界中的具身控制至关重要。直接用大规模机器人数据弥合这一差距成本高昂且难以扩展。因此，我们提出用3D注释丰富易于收集的非机器人图像数据，并增强预训练VLM的3D理解能力。基于此，我们训练了SPEAR-VLM，一个能够从单张2D图像中推断物体3D坐标的3D感知VLM。在此基础上，我们引入了主要贡献SPEAR-1：一个集成了基于语言指令的具身控制和有依据的3D感知的机器人基础模型。SPEAR-1在来自24个Open X-Embodiment数据集的约4500万帧上训练，优于或匹配了$π_0$-FAST和$π_{0.5}$等最先进的模型，同时使用的机器人演示数据减少了20倍。这种精心设计的训练策略释放了新的VLM能力，从而提高了具身控制的可靠性，超越了仅使用机器人数据所能达到的水平。我们公开了模型权重和3D注释数据集。

🔬 方法详解

问题定义：现有机器人基础模型依赖于在2D图像上训练的视觉-语言模型，这导致它们在3D环境中进行机器人控制时缺乏必要的空间推理能力。直接使用大规模机器人数据进行训练成本高昂且难以扩展，因此需要一种更有效的方法来提升模型的3D感知能力。

核心思路：该论文的核心思路是通过利用易于获取的非机器人图像数据，并使用3D标注来增强这些数据，从而提升视觉-语言模型的3D理解能力。这种方法避免了直接依赖昂贵的机器人数据，并且能够更有效地利用现有的视觉资源。

技术框架：SPEAR-1的整体框架包含两个主要阶段：首先，训练一个3D感知的视觉-语言模型（SPEAR-VLM），该模型能够从2D图像中推断出物体的3D坐标。然后，将SPEAR-VLM集成到机器人基础模型中，实现基于语言指令的具身控制。该模型在大量Open X-Embodiment数据集上进行训练。

关键创新：该论文的关键创新在于将3D感知能力融入到视觉-语言模型中，并将其应用于机器人控制。通过这种方式，模型能够更好地理解3D环境，从而提高控制的准确性和可靠性。此外，该方法还能够显著减少对机器人演示数据的依赖。

关键设计：SPEAR-VLM使用Transformer架构，并采用对比学习目标进行训练，以学习图像和3D坐标之间的对应关系。机器人基础模型使用SPEAR-VLM提取的视觉特征，并结合语言指令生成控制指令。损失函数包括模仿学习损失和辅助损失，以提高模型的泛化能力。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SPEAR-1在Open X-Embodiment数据集上进行了广泛的实验，结果表明，SPEAR-1的性能优于或匹配了最先进的模型，如$π_0$-FAST和$π_{0.5}$，同时使用的机器人演示数据减少了20倍。这表明SPEAR-1能够更有效地利用数据，并实现更高的控制性能。公开的模型权重和3D注释数据集也有助于推动该领域的研究。

🎯 应用场景

SPEAR-1的研究成果可广泛应用于各种机器人控制任务中，例如家庭服务机器人、工业自动化机器人和自动驾驶汽车。通过提升机器人对3D环境的理解能力，可以实现更安全、更高效的机器人操作，并降低对人工干预的依赖。该研究为开发更通用、更智能的机器人系统奠定了基础。

📄 摘要（原文）

Robotic Foundation Models (RFMs) hold great promise as generalist, end-to-end systems for robot control. Yet their ability to generalize across new environments, tasks, and embodiments remains limited. We argue that a major bottleneck lies in their foundations: most RFMs are built by fine-tuning internet-pretrained Vision-Language Models (VLMs). However, these VLMs are trained on 2D image-language tasks and lack the 3D spatial reasoning inherently required for embodied control in the 3D world. Bridging this gap directly with large-scale robotic data is costly and difficult to scale. Instead, we propose to enrich easy-to-collect non-robotic image data with 3D annotations and enhance a pretrained VLM with 3D understanding capabilities. Following this strategy, we train SPEAR-VLM, a 3D-aware VLM that infers object coordinates in 3D space from a single 2D image. Building on SPEAR-VLM, we introduce our main contribution, $~\textbf{SPEAR-1}$: a robotic foundation model that integrates grounded 3D perception with language-instructed embodied control. Trained on $\sim$45M frames from 24 Open X-Embodiment datasets, SPEAR-1 outperforms or matches state-of-the-art models such as $π_0$-FAST and $π_{0.5}$, while it uses 20$\times$ fewer robot demonstrations. This carefully-engineered training strategy unlocks new VLM capabilities and as a consequence boosts the reliability of embodied control beyond what is achievable with only robotic data. We make our model weights and 3D-annotated datasets publicly available.

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理