SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding
作者: Nikolay Nikolov, Giuliano Albanese, Sombit Dey, Aleksandar Yanev, Luc Van Gool, Jan-Nico Zaech, Danda Pani Paudel
分类: cs.RO, cs.LG
发布日期: 2025-11-21
💡 一句话要点
SPEAR-1:通过3D理解扩展机器人演示学习能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人基础模型 3D感知 视觉-语言模型 具身控制 机器人学习
📋 核心要点
- 现有机器人基础模型依赖2D视觉-语言模型,缺乏3D空间推理能力,限制了其在复杂环境中的泛化性。
- SPEAR-1通过3D标注增强非机器人图像数据,提升视觉-语言模型的3D理解能力,从而改善机器人控制。
- SPEAR-1在大量数据集上训练,仅使用少量机器人演示数据,性能超越现有模型,显著提升了具身控制的可靠性。
📝 摘要(中文)
机器人基础模型(RFMs)作为通用、端到端机器人控制系统展现出巨大潜力。然而,它们在新环境、任务和形态上的泛化能力仍然有限。一个主要瓶颈在于其基础:大多数RFMs通过微调互联网预训练的视觉-语言模型(VLMs)构建。这些VLMs在2D图像-语言任务上训练,缺乏3D空间推理能力,而这对于3D世界中的具身控制至关重要。直接用大规模机器人数据弥合这一差距成本高昂且难以扩展。因此,我们提出用3D注释丰富易于收集的非机器人图像数据,并增强预训练VLM的3D理解能力。基于此,我们训练了SPEAR-VLM,一个能够从单张2D图像中推断物体3D坐标的3D感知VLM。在此基础上,我们引入了主要贡献SPEAR-1:一个集成了基于语言指令的具身控制和有依据的3D感知的机器人基础模型。SPEAR-1在来自24个Open X-Embodiment数据集的约4500万帧上训练,优于或匹配了$π_0$-FAST和$π_{0.5}$等最先进的模型,同时使用的机器人演示数据减少了20倍。这种精心设计的训练策略释放了新的VLM能力,从而提高了具身控制的可靠性,超越了仅使用机器人数据所能达到的水平。我们公开了模型权重和3D注释数据集。
🔬 方法详解
问题定义:现有机器人基础模型依赖于在2D图像上训练的视觉-语言模型,这导致它们在3D环境中进行机器人控制时缺乏必要的空间推理能力。直接使用大规模机器人数据进行训练成本高昂且难以扩展,因此需要一种更有效的方法来提升模型的3D感知能力。
核心思路:该论文的核心思路是通过利用易于获取的非机器人图像数据,并使用3D标注来增强这些数据,从而提升视觉-语言模型的3D理解能力。这种方法避免了直接依赖昂贵的机器人数据,并且能够更有效地利用现有的视觉资源。
技术框架:SPEAR-1的整体框架包含两个主要阶段:首先,训练一个3D感知的视觉-语言模型(SPEAR-VLM),该模型能够从2D图像中推断出物体的3D坐标。然后,将SPEAR-VLM集成到机器人基础模型中,实现基于语言指令的具身控制。该模型在大量Open X-Embodiment数据集上进行训练。
关键创新:该论文的关键创新在于将3D感知能力融入到视觉-语言模型中,并将其应用于机器人控制。通过这种方式,模型能够更好地理解3D环境,从而提高控制的准确性和可靠性。此外,该方法还能够显著减少对机器人演示数据的依赖。
关键设计:SPEAR-VLM使用Transformer架构,并采用对比学习目标进行训练,以学习图像和3D坐标之间的对应关系。机器人基础模型使用SPEAR-VLM提取的视觉特征,并结合语言指令生成控制指令。损失函数包括模仿学习损失和辅助损失,以提高模型的泛化能力。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
SPEAR-1在Open X-Embodiment数据集上进行了广泛的实验,结果表明,SPEAR-1的性能优于或匹配了最先进的模型,如$π_0$-FAST和$π_{0.5}$,同时使用的机器人演示数据减少了20倍。这表明SPEAR-1能够更有效地利用数据,并实现更高的控制性能。公开的模型权重和3D注释数据集也有助于推动该领域的研究。
🎯 应用场景
SPEAR-1的研究成果可广泛应用于各种机器人控制任务中,例如家庭服务机器人、工业自动化机器人和自动驾驶汽车。通过提升机器人对3D环境的理解能力,可以实现更安全、更高效的机器人操作,并降低对人工干预的依赖。该研究为开发更通用、更智能的机器人系统奠定了基础。
📄 摘要(原文)
Robotic Foundation Models (RFMs) hold great promise as generalist, end-to-end systems for robot control. Yet their ability to generalize across new environments, tasks, and embodiments remains limited. We argue that a major bottleneck lies in their foundations: most RFMs are built by fine-tuning internet-pretrained Vision-Language Models (VLMs). However, these VLMs are trained on 2D image-language tasks and lack the 3D spatial reasoning inherently required for embodied control in the 3D world. Bridging this gap directly with large-scale robotic data is costly and difficult to scale. Instead, we propose to enrich easy-to-collect non-robotic image data with 3D annotations and enhance a pretrained VLM with 3D understanding capabilities. Following this strategy, we train SPEAR-VLM, a 3D-aware VLM that infers object coordinates in 3D space from a single 2D image. Building on SPEAR-VLM, we introduce our main contribution, $~\textbf{SPEAR-1}$: a robotic foundation model that integrates grounded 3D perception with language-instructed embodied control. Trained on $\sim$45M frames from 24 Open X-Embodiment datasets, SPEAR-1 outperforms or matches state-of-the-art models such as $π_0$-FAST and $π_{0.5}$, while it uses 20$\times$ fewer robot demonstrations. This carefully-engineered training strategy unlocks new VLM capabilities and as a consequence boosts the reliability of embodied control beyond what is achievable with only robotic data. We make our model weights and 3D-annotated datasets publicly available.