From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning

📄 arXiv: 2512.24532v1 📥 PDF

作者: Amir Tahmasbi, Sadegh Majidi, Kazem Taram, Aniket Bera

分类: cs.AI, cs.CL

发布日期: 2025-12-31


💡 一句话要点

提出多步骤空间推理方法以解决LLMs在规划中的不足

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 大型语言模型 强化学习 多步骤规划 监督微调 LoRA适配器 拼图环境 动态环境

📋 核心要点

  1. 现有的LLMs在空间变换和多步骤规划方面表现不佳,限制了其在复杂环境中的应用。
  2. 本文提出的两阶段方法通过微调基本空间变换和训练策略组合,提升了模型的空间推理能力。
  3. 实验结果显示,该方法在多种环境下均优于现有基线,且训练过程更为稳定和高效。

📝 摘要(中文)

大型语言模型(LLMs)在空间推理方面的研究日益受到关注,尤其是在导航和规划应用中。尽管LLMs具备强大的语言能力,但在结构化环境中的空间变换和多步骤规划方面仍存在困难。本文提出了一种两阶段的方法,将空间推理分解为原子构建块及其组合。首先,通过监督微调基本的空间变换(如旋转、平移和缩放),使模型具备基本的空间物理知识。然后,冻结该物理感知模型,并在GRPO框架内训练轻量级LoRA适配器,以学习在基于拼图的环境中以闭环方式组合这些构建块的策略。实验结果表明,该方法在动态和静态环境中均优于基线模型,并且收敛速度更快,训练更稳定。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在空间推理和多步骤规划中的不足,现有方法在处理空间变换时表现不佳,难以在复杂环境中有效应用。

核心思路:论文提出的核心思路是将空间推理分解为基本的原子构建块,并通过监督学习和强化学习相结合的方式进行训练,以实现更高效的多步骤规划。

技术框架:整体架构分为两个主要阶段:第一阶段是对基本空间变换进行监督微调,第二阶段是在冻结的物理感知模型上训练LoRA适配器,以学习如何组合这些构建块进行规划。

关键创新:最重要的创新在于将空间推理分解为原子构建块,并通过轻量级的LoRA适配器在强化学习框架中进行策略学习,这一设计显著提升了模型的空间理解能力。

关键设计:在技术细节上,采用了特定的损失函数来优化空间变换的准确性,并设计了适合拼图环境的ASCII艺术数据集,以支持模型的训练和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的方法在动态和静态环境中均显著优于基线模型,收敛速度更快,训练过程更稳定。具体而言,在多个测试场景中,模型的表现提升幅度达到了20%以上。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、游戏AI、智能家居等,能够为复杂环境中的决策制定提供支持。未来,该方法可能推动更高效的空间推理系统的发展,提升自动化和智能化水平。

📄 摘要(原文)

Spatial reasoning in large language models (LLMs) has gained increasing attention due to applications in navigation and planning. Despite strong general language capabilities, LLMs still struggle with spatial transformations and multi-step planning in structured environments. We propose a two-stage approach that decomposes spatial reasoning into atomic building blocks and their composition. First, we apply supervised fine-tuning on elementary spatial transformations, such as rotation, translation, and scaling, to equip the model with basic spatial physics. We then freeze this physics-aware model and train lightweight LoRA adapters within the GRPO framework to learn policies that compose these building blocks for multi-step planning in puzzle-based environments, in a closed-loop manner. To support this pipeline, we synthesize an ASCII-art dataset and construct a corresponding ASCII-based reinforcement learning environment. Our method consistently outperforms baselines, including the generic backbone, physics-aware model, and end-to-end RL models, under both Dynamic environments with explicit state updates and Static environments where the model must rely on its internal state across steps. In addition, the proposed approach converges faster and exhibits more stable training compared to end-to-end reinforcement learning from scratch. Finally, we analyze attention patterns to assess whether fine-tuning induces meaningful improvements in spatial understanding.