Geometry-Aligned LLM Fine-Tuning for Sequential Narrow-Opening Planning

📄 arXiv: 2603.16028v1 📥 PDF

作者: Al Jaber Mahmud, Xuan Wang

分类: cs.RO

发布日期: 2026-03-17

备注: 8 pages, 3 figures


💡 一句话要点

提出几何对齐的LLM微调框架,用于解决序列窄口运动规划问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动规划 大型语言模型 几何推理 强化学习 微调 机器人 窄口规划

📋 核心要点

  1. 现有方法在解决通过多个连续窄口的刚体运动规划问题时,缺乏长期几何推理能力,难以保证运动可行性。
  2. 论文提出一种几何对齐的LLM微调框架,通过双层训练流程,使LLM能够生成几何可行且协调的航路点序列。
  3. 实验结果表明,该方法在同分布和异分布环境中均取得了最高的成功率,并展现出长期的几何推理能力。

📝 摘要(中文)

本文研究了刚体通过多个连续窄口进行运动规划的问题,这需要长期的几何推理,因为通过早期开口的配置会约束后续开口的可达配置集合。为了实现这一点,我们提出了一种几何对齐的大型语言模型(LLM)微调框架,该框架生成固定长度、机器可读的航路点序列,这些序列在几何上是可行的,并且在开口之间是协调的。我们的方法使用双层训练流程。首先,我们对人类演示进行失败驱动的LoRA监督微调(SFT),其中包含结构化的失败反馈,以教导模型常见的失败模式并强制执行输出格式。其次,我们使用带有几何验证的Group Relative Policy Optimization(GRPO)来改进相同的LoRA适配器:每个采样的航路点序列都由基于模型的规划器进行密集化,并使用确定性的几何推导奖励进行评分,以实现连续运动可行性。为了验证我们提出的方法的有效性,我们提供了来自模拟的定量和定性结果。我们的方法在同分布和异分布环境中都实现了最高的成功率,并且通过选择有助于进入后续开口的退出姿势,在质量上表现出长期的几何推理能力。

🔬 方法详解

问题定义:论文旨在解决刚体在复杂环境中,特别是需要通过多个连续狭窄开口的运动规划问题。现有方法通常难以进行长期的几何推理,导致规划出的路径无法保证通过所有开口,或者在通过早期开口后,后续路径的可行性受到限制。因此,需要一种能够进行全局几何推理,并生成协调一致的运动轨迹的规划方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大泛化能力和上下文理解能力,通过微调使其具备几何推理能力,从而生成可行的运动轨迹。通过将运动规划问题转化为序列生成问题,LLM可以学习到不同开口之间的依赖关系,并生成协调一致的航路点序列。此外,通过几何验证和奖励机制,可以进一步提高生成轨迹的几何可行性。

技术框架:该方法采用双层训练流程。第一层是失败驱动的LoRA监督微调(SFT),利用人类演示数据和结构化的失败反馈,训练LLM生成符合要求的航路点序列,并学习常见的失败模式。第二层是使用Group Relative Policy Optimization(GRPO)进行强化学习,利用几何验证和奖励函数,进一步优化LLM生成的轨迹,提高其几何可行性。整个框架包括数据收集、模型训练、几何验证和轨迹优化等模块。

关键创新:该方法最重要的创新点在于将LLM应用于运动规划问题,并提出了一种几何对齐的微调框架。通过结合监督学习和强化学习,以及几何验证和奖励机制,有效地提高了LLM生成轨迹的几何可行性和协调性。此外,失败驱动的训练方式能够使模型更好地学习到常见的失败模式,从而提高其鲁棒性。

关键设计:在监督微调阶段,使用LoRA(Low-Rank Adaptation)来减少训练参数,提高训练效率。在强化学习阶段,使用Group Relative Policy Optimization(GRPO)来提高探索效率。几何验证模块使用基于模型的规划器对生成的航路点序列进行密集化,并使用几何推导的奖励函数对轨迹进行评分,以评估其几何可行性。奖励函数的设计至关重要,需要能够准确地反映轨迹的几何可行性和协调性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在同分布和异分布环境中均取得了最高的成功率,证明了其良好的泛化能力。定性结果表明,该方法能够进行长期的几何推理,选择合适的退出姿势,从而方便进入后续的开口。相比于其他方法,该方法能够生成更协调、更可行的运动轨迹。

🎯 应用场景

该研究成果可应用于机器人自动化、自动驾驶、游戏AI等领域。例如,在机器人自动化中,可以用于规划机器人通过复杂环境的运动轨迹,提高生产效率和安全性。在自动驾驶中,可以用于规划车辆通过狭窄道路或复杂交通场景的行驶路径,提高驾驶安全性和舒适性。在游戏AI中,可以用于生成更智能、更自然的NPC运动轨迹,提高游戏体验。

📄 摘要(原文)

We study rigid-body motion planning through multiple sequential narrow openings, which requires long-horizon geometric reasoning because the configuration used to traverse an early opening constrains the set of reachable configurations for subsequent ones. To achieve this, we propose a geometry-aligned large language model (LLM) fine-tuning framework that generates fixed-length, machine-readable waypoint sequences that are both geometrically feasible and coordinated across openings. Our approach uses a bi-level training pipeline. First, we perform failure-driven LoRA supervised fine-tuning (SFT) on human demonstrations, which incorporates structured failure feedback to teach the model common failure modes and enforce the output format. Second, we refine the same LoRA adapters using Group Relative Policy Optimization (GRPO) with geometric verification: each sampled waypoint sequence is densified by a model-based planner and scored with a deterministic geometry-derived reward to achieve continuous-motion feasibility. To validate the effectiveness of our proposed method, we provide both quantitative and qualitative results from simulations. Our method achieves the highest success rate in both in-distribution and out-of-distribution environments and qualitatively exhibits long-horizon geometric reasoning by selecting exit poses that facilitate entry into subsequent openings.