Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

📄 arXiv: 2508.15874v2 📥 PDF

作者: Yijun Liu, Yuwei Liu, Yuan Meng, Jieheng Zhang, Yuwei Zhou, Ye Li, Jiacheng Jiang, Kangye Ji, Shijia Ge, Zhi Wang, Wenwu Zhu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-08-21 (更新: 2025-11-18)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Spatial Policy,通过空间建模与推理引导机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 空间建模 具身智能 视觉运动 强化学习

📋 核心要点

  1. 现有视觉中心的分层具身模型缺乏空间感知能力,难以将视觉规划转化为复杂环境中的可执行控制。
  2. Spatial Policy通过显式空间建模和推理,利用空间规划表引导预测,并结合基于流的动作预测和空间推理反馈策略。
  3. 实验结果表明,Spatial Policy在Meta-World和iTHOR等多个具身控制任务中显著优于现有方法,并在真实机器人实验中验证了可行性。

📝 摘要(中文)

本文提出Spatial Policy (SP),一个统一的、具有空间感知能力的视觉运动机器人操作框架,通过显式的空间建模和推理来实现。该框架首先设计了一个空间条件下的具身视频生成模块,通过空间规划表来建模空间引导的预测。然后,提出了一个基于流的动作预测模块,以推断具有协调性的可执行动作。最后,提出了一个空间推理反馈策略,通过双阶段的重规划来细化空间规划表。大量实验表明,SP显著优于最先进的基线方法,在Meta-World上实现了超过33%的改进,在iTHOR上实现了超过25%的改进,证明了其在23个具身控制任务中的强大有效性。此外,在真实世界的机器人实验中评估了SP,验证了其在实际应用中的可行性。SP增强了具身模型在机器人控制应用中的实用性。

🔬 方法详解

问题定义:现有基于视觉的机器人操作方法,特别是分层具身模型,在复杂环境中面临挑战。主要痛点在于缺乏对环境空间信息的有效建模和利用,导致难以将高层视觉规划转化为精确的机器人动作控制。现有方法的空间感知能力不足,限制了其在复杂操作任务中的性能。

核心思路:Spatial Policy的核心思路是通过显式地建模和推理空间信息,增强机器人对环境的理解和操作能力。具体而言,它使用空间规划表来表示环境中的空间关系,并利用该表来指导视频生成和动作预测。通过空间推理反馈策略,不断优化空间规划表,提高操作的准确性和鲁棒性。

技术框架:Spatial Policy包含三个主要模块:1) 空间条件具身视频生成模块:利用空间规划表,预测在空间引导下的未来视频帧。2) 基于流的动作预测模块:根据预测的视频帧,推断出可执行的机器人动作,并保证动作的协调性。3) 空间推理反馈策略:通过双阶段重规划,不断优化空间规划表,提高操作的准确性。整体流程是,首先利用视觉信息构建初始空间规划表,然后通过视频生成和动作预测,执行机器人操作。最后,利用空间推理反馈策略,根据操作结果更新空间规划表,进行迭代优化。

关键创新:Spatial Policy的关键创新在于显式地建模和推理空间信息,并将其融入到机器人操作的各个环节中。与现有方法相比,它不再仅仅依赖于隐式的视觉特征,而是通过空间规划表来显式地表示环境中的空间关系。这种显式的空间建模方式,使得机器人能够更好地理解环境,并做出更准确的动作决策。此外,空间推理反馈策略能够不断优化空间规划表,提高操作的鲁棒性。

关键设计:空间条件具身视频生成模块使用Transformer架构,将空间规划表作为条件输入,预测未来的视频帧。基于流的动作预测模块使用光流估计网络,从预测的视频帧中提取运动信息,并利用该信息推断出可执行的机器人动作。空间推理反馈策略使用强化学习算法,根据操作结果调整空间规划表。损失函数包括视频生成损失、动作预测损失和强化学习奖励。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Spatial Policy在Meta-World和iTHOR等多个具身控制任务中显著优于现有方法。在Meta-World上,SP的性能提升超过33%,在iTHOR上,性能提升超过25%。此外,在真实世界的机器人实验中,SP也表现出良好的性能,验证了其在实际应用中的可行性。这些结果表明,Spatial Policy是一种有效的机器人操作方法,具有很强的实用价值。

🎯 应用场景

Spatial Policy具有广泛的应用前景,可应用于各种需要精细操作的机器人任务中,例如:家庭服务机器人、工业自动化、医疗手术机器人等。通过增强机器人的空间感知和操作能力,可以提高机器人的工作效率和安全性,降低人工成本,并拓展机器人的应用范围。未来,Spatial Policy有望成为机器人操作领域的重要技术支撑。

📄 摘要(原文)

Vision-centric hierarchical embodied models have demonstrated strong potential. However, existing methods lack spatial awareness capabilities, limiting their effectiveness in bridging visual plans to actionable control in complex environments. To address this problem, we propose Spatial Policy (SP), a unified spatial-aware visuomotor robotic manipulation framework via explicit spatial modeling and reasoning. Specifically, we first design a spatial-conditioned embodied video generation module to model spatially guided predictions through the spatial plan table. Then, we propose a flow-based action prediction module to infer executable actions with coordination. Finally, we propose a spatial reasoning feedback policy to refine the spatial plan table via dual-stage replanning. Extensive experiments show that SP substantially outperforms state-of-the-art baselines, achieving over 33% improvement on Meta-World and over 25% improvement on iTHOR, demonstrating strong effectiveness across 23 embodied control tasks. We additionally evaluate SP in real-world robotic experiments to verify its practical viability. SP enhances the practicality of embodied models for robotic control applications. Code and checkpoints are maintained at https://plantpotatoonmoon.github.io/SpatialPolicy/.