SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
作者: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
分类: cs.CV, cs.RO
发布日期: 2025-12-03
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SpaceTools,通过双重交互强化学习增强视觉语言模型在具身任务中的空间推理能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 具身智能 空间推理 视觉语言模型 强化学习 多工具协调 机器人操作
📋 核心要点
- 视觉语言模型在空间推理方面存在不足,难以应用于需要精确空间信息的具身任务。
- 提出双重交互强化学习(DIRL)框架,通过教学和探索两个阶段,使VLM学会协调使用多种工具。
- SpaceTools在多个空间理解基准测试中达到SOTA,并在真实机器人操作中表现出可靠性。
📝 摘要(中文)
视觉语言模型(VLM)在定性视觉理解方面表现出色,但在具身应用所需的精确空间推理方面存在困难。Agentic范式认为VLM可以使用各种工具来增强这些能力,例如深度估计器、分割模型和姿态估计器。然而,如何在不依赖手工提示策略或强制执行限制VLM发现最佳工具使用模式的固定、预定义工具管道的情况下实现这一愿景仍然是一个开放的挑战。强化学习可以弥补这一差距,但由于多工具推理中存在巨大的搜索空间,因此迄今为止仅限于使用单个视觉工具进行推理。我们引入了双重交互强化学习(DIRL),这是一个两阶段训练框架,其中VLM通过交互式探索和反馈来学习协调多个工具。在教学阶段,我们将通过交互式RL训练的单个工具专家的演示与使用所有工具的前沿模型的轨迹相结合。在探索阶段,该模型通过持续的RL进一步改进多工具协调。我们的模型SpaceTools具有工具增强的空间推理能力,在空间理解基准(RoboSpatial-Home、BLINK、BOP-ASK)上实现了最先进的性能,并展示了使用7-DOF机器人作为工具的可靠的真实世界操作。DIRL比vanilla SFT(在RoboSpatial上+12%)和RL(在RoboSpatial上+16%)基线有了显著的改进。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)虽然具备一定的视觉理解能力,但在需要精确空间推理的具身任务中表现不佳。现有方法要么依赖手工设计的提示工程,要么使用固定的工具pipeline,限制了VLM探索最优工具使用策略的能力。强化学习虽然可以用于训练VLM使用工具,但由于多工具组合带来的巨大搜索空间,现有方法通常仅限于使用单个工具。
核心思路:本文的核心思路是利用双重交互强化学习(DIRL)框架,分阶段训练VLM学会协调使用多种工具。DIRL包含教学阶段和探索阶段。教学阶段利用单工具专家的演示数据和多工具模型的探索轨迹,引导模型学习初步的工具使用策略。探索阶段则通过持续的强化学习,进一步优化多工具协调。
技术框架:DIRL框架包含两个主要阶段:教学阶段和探索阶段。在教学阶段,首先训练多个单工具专家,每个专家负责使用一个特定的工具完成任务。然后,收集单工具专家的演示数据,并训练一个使用所有工具的前沿模型。将单工具专家的演示数据和前沿模型的探索轨迹混合,用于训练一个初始的多工具模型。在探索阶段,使用强化学习进一步训练多工具模型,使其能够更好地协调使用各种工具。
关键创新:DIRL的关键创新在于其双阶段训练框架,该框架有效地解决了多工具组合带来的巨大搜索空间问题。通过教学阶段的预训练,模型可以快速学习到初步的工具使用策略。通过探索阶段的强化学习,模型可以进一步优化工具使用策略,并发现更有效的工具组合方式。此外,DIRL不需要手工设计的提示工程或固定的工具pipeline,允许模型自主探索最优的工具使用方式。
关键设计:在教学阶段,使用行为克隆(Behavior Cloning)训练初始的多工具模型。在探索阶段,使用近端策略优化(Proximal Policy Optimization, PPO)算法进行强化学习。奖励函数的设计至关重要,需要综合考虑任务完成情况、工具使用效率等因素。网络结构方面,可以使用Transformer等模型作为VLM的骨干网络,并根据具体任务的需求添加额外的模块。
🖼️ 关键图片
📊 实验亮点
SpaceTools在RoboSpatial-Home、BLINK和BOP-ASK等空间理解基准测试中取得了state-of-the-art的性能。在RoboSpatial-Home数据集上,DIRL相比于vanilla SFT基线提升了12%,相比于纯RL基线提升了16%。此外,SpaceTools还在真实的7-DOF机器人操作中展示了可靠性,验证了其在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于各种需要空间推理和工具使用的具身智能任务,例如家庭机器人、工业机器人、自动驾驶等。通过赋予机器人更强的空间理解和工具使用能力,可以使其更好地完成复杂的任务,提高工作效率和安全性。此外,该研究还可以促进视觉语言模型在具身智能领域的应用。
📄 摘要(原文)
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.