SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

作者: Quang P. M. Pham, Khoi T. N. Nguyen, Nhi H. Doan, Cuong A. Pham, Qinbo Sun, Weimin Qi, Kentaro Inui, Dezhen Song

分类: cs.RO, cs.CL

发布日期: 2025-05-01 (更新: 2025-09-25)

备注: Paper is under review

🔗 代码/项目: GITHUB

💡 一句话要点

SmallPlan：利用小语言模型进行序列路径规划，通过模拟和LLM引导的蒸馏实现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 路径规划 小型语言模型 知识蒸馏 强化学习 机器人导航 边缘计算 模拟训练

📋 核心要点

现有路径规划方法在大规模复杂环境中效率低下，难以满足机器人实时部署需求。
SmallPlan利用LLM作为教师模型，指导SLM学习，实现高效且适应性强的路径规划。
实验表明，SmallPlan在路径规划任务上可与大型模型媲美，且资源消耗更低，适合边缘设备。

📝 摘要（中文）

本文提出SmallPlan，一个新颖的框架，利用大型语言模型（LLM）作为教师模型，训练轻量级的小型语言模型（SLM）用于高级路径规划任务。在SmallPlan中，SLM提供最优的动作序列，以在场景图上导航，这些场景图紧凑地表示完整规模的3D场景。SLM以模拟驱动、交错的方式进行训练，结合LLM引导的监督微调（SFT）和强化学习（RL）。这种策略不仅使SLM能够成功完成导航任务，而且使其意识到诸如行进距离等重要因素，从而提供更有效的路径规划。实验表明，经过微调的SLM在序列路径规划方面与GPT-4o等大型模型相比具有竞争力，且没有幻觉和过拟合问题。SmallPlan资源效率高，非常适合边缘设备部署，并推动了实际自主机器人技术的发展。

🔬 方法详解

问题定义：论文旨在解决机器人路径规划中，大型复杂环境下计算效率低下的问题。现有方法，特别是基于大型语言模型的方法，虽然具有强大的推理能力，但计算成本高昂，难以在边缘设备上实时部署，并且容易出现幻觉和过拟合现象。

核心思路：论文的核心思路是利用知识蒸馏，将大型语言模型（LLM）的知识迁移到小型语言模型（SLM）上。通过LLM指导的监督微调和强化学习，使SLM能够在资源受限的条件下，实现高效的路径规划。这样既保留了LLM的推理能力，又降低了计算成本，使其能够在边缘设备上部署。

技术框架：SmallPlan框架包含以下几个主要模块：1) 场景图构建：将3D环境表示为紧凑的场景图，降低计算复杂度。2) LLM教师模型：利用LLM生成高质量的路径规划策略。3) SLM学生模型：使用小型语言模型作为路径规划器。4) 模拟环境：在模拟环境中进行训练和评估。5) LLM引导的监督微调（SFT）：使用LLM生成的轨迹数据微调SLM。6) 强化学习（RL）：使用奖励函数进一步优化SLM的性能。

关键创新：SmallPlan的关键创新在于使用模拟驱动、交错的方式进行LLM引导的监督微调和强化学习。这种方法能够有效地将LLM的知识迁移到SLM上，同时避免了幻觉和过拟合问题。此外，SmallPlan还考虑了路径长度等因素，使SLM能够生成更有效的路径规划策略。

关键设计：在SFT阶段，使用LLM生成的轨迹数据作为训练样本，损失函数为交叉熵损失。在RL阶段，使用奖励函数鼓励SLM生成更短、更有效的路径。具体的网络结构选择Transformer模型，并针对资源限制进行了优化。参数设置方面，需要仔细调整SFT和RL的学习率、batch size等超参数，以获得最佳性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过SmallPlan训练的SLM在序列路径规划任务上，性能可与GPT-4o等大型模型相媲美，同时显著降低了计算成本。具体而言，SLM在完成导航任务的成功率上与GPT-4o相当，但推理速度提升了数倍，并且避免了幻觉和过拟合问题。这些结果验证了SmallPlan的有效性和实用性。

🎯 应用场景

SmallPlan具有广泛的应用前景，可用于自主导航机器人、无人机、自动驾驶等领域。其低计算成本和高效率使其特别适合在资源受限的边缘设备上部署。通过SmallPlan，可以实现更智能、更高效的自主导航系统，提高机器人的工作效率和适应性，从而在物流、安防、巡检等行业发挥重要作用。

📄 摘要（原文）

Efficient path planning in robotics, particularly within large-scale, complex environments, remains a significant hurdle. While Large Language Models (LLMs) offer strong reasoning capabilities, their high computational cost and limited adaptability hinder real-time deployment on edge devices. We present SmallPlan - a novel framework leveraging LLMs as teacher models to train lightweight Small Language Models (SLMs) for high-level path planning tasks. In SmallPlan, the SLMs provide optimal action sequences to navigate across scene graphs that compactly represent full-scaled 3D scenes. The SLMs are trained in a simulation-powered, interleaved manner with LLM-guided supervised fine-tuning (SFT) and reinforcement learning (RL). This strategy not only enables SLMs to successfully complete navigation tasks but also makes them aware of important factors like distance travel, providing more efficient path planning. Through experiments, we demonstrate that the fine-tuned SLMs perform competitively with larger models like GPT-4o on sequential path planning, without suffering from hallucination and overfitting. SmallPlan is resource-efficient, making it well-suited for edge-device deployment and advancing practical autonomous robotics. Our source code is available here: https://github.com/quangpham2006/SmallPlan

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理