On-Policy Distillation of Language Models for Autonomous Vehicle Motion Planning
作者: Amirhossein Afsharrad, Amirhesam Abedsoltan, Ahmadreza Moradipari, Sanjay Lall
分类: cs.RO, cs.AI, eess.SY
发布日期: 2026-04-09
💡 一句话要点
提出基于On-Policy蒸馏的语言模型,用于自动驾驶车辆运动规划,有效减小模型尺寸。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 运动规划 语言模型 知识蒸馏 On-Policy学习
📋 核心要点
- 现有方法难以在资源受限的自动驾驶系统中部署大型语言模型进行运动规划。
- 提出On-Policy广义知识蒸馏(GKD)方法,将大型教师模型的知识迁移到小型学生模型。
- 实验表明,GKD在模型尺寸显著减小的情况下,性能接近教师模型,优于强化学习基线。
📝 摘要(中文)
本文研究如何将大型语言模型(LLM)的运动规划知识有效地迁移到更小、更易于部署的学生模型中,以解决在资源受限的自动驾驶车载系统中部署大型LLM的挑战。该研究基于GPT-Driver框架,将驾驶场景表示为语言提示,并使用思维链推理生成航路点轨迹。研究考察了两种学生模型训练范式:(i)On-Policy广义知识蒸馏(GKD),它使用来自教师模型的密集token级别反馈,在学生模型自身生成的输出上进行训练;(ii)密集反馈强化学习(RL)基线,该基线在策略梯度框架中使用教师模型的log-probabilities作为每个token的奖励信号。在nuScenes基准上的实验表明,GKD显著优于RL基线,并在模型尺寸缩小5倍的情况下,性能接近教师模型水平。这些结果突出了On-Policy蒸馏作为一种原则性和有效的方法,在自动驾驶系统中部署基于LLM的规划器的实际价值。
🔬 方法详解
问题定义:论文旨在解决自动驾驶车辆运动规划中,大型语言模型(LLM)难以部署在资源受限的车载系统上的问题。现有方法,例如直接使用大型LLM,计算成本高昂,难以满足实时性要求。因此,需要将大型LLM的知识迁移到更小的模型上,同时保持性能。
核心思路:论文的核心思路是使用On-Policy广义知识蒸馏(GKD)。学生模型在自身生成的轨迹上进行训练,并利用教师模型的token级别反馈进行指导。这种方法鼓励学生模型学习教师模型的推理过程,而不仅仅是模仿最终结果。
技术框架:整体框架包括一个大型的教师LLM(GPT-Driver)和一个较小的学生LLM。教师模型负责生成高质量的轨迹,并提供token级别的概率分布。学生模型通过GKD或强化学习进行训练,目标是尽可能接近教师模型的性能。训练完成后,学生模型可以独立进行运动规划。
关键创新:关键创新在于使用On-Policy蒸馏,即学生模型在自身生成的轨迹上进行训练。与传统的Off-Policy蒸馏相比,On-Policy蒸馏能够更好地探索环境,并学习教师模型的策略。此外,使用token级别的密集反馈,可以更精细地指导学生模型的学习。
关键设计:GKD的关键设计包括:(1) 使用交叉熵损失函数,衡量学生模型和教师模型在token级别概率分布上的差异;(2) 使用温度系数调整教师模型的概率分布,以平滑目标分布,提高蒸馏效果;(3) 探索不同的奖励函数,例如使用教师模型的log-probabilities作为奖励信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用On-Policy广义知识蒸馏(GKD)训练的学生模型,在nuScenes基准测试中显著优于强化学习基线。在模型尺寸缩小5倍的情况下,GKD的性能接近教师模型水平,验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的运动规划系统,尤其是在计算资源有限的场景下。通过知识蒸馏,可以将大型、复杂的LLM模型压缩成更小、更高效的模型,从而降低计算成本,提高实时性,加速自动驾驶技术的落地。
📄 摘要(原文)
Large language models (LLMs) have recently demonstrated strong potential for autonomous vehicle motion planning by reformulating trajectory prediction as a language generation problem. However, deploying capable LLMs in resource-constrained onboard systems remains a fundamental challenge. In this paper, we study how to effectively transfer motion planning knowledge from a large teacher LLM to a smaller, more deployable student model. We build on the GPT-Driver framework, which represents driving scenes as language prompts and generates waypoint trajectories with chain-of-thought reasoning, and investigate two student training paradigms: (i) on-policy generalized knowledge distillation (GKD), which trains the student on its own self-generated outputs using dense token-level feedback from the teacher, and (ii) a dense-feedback reinforcement learning (RL) baseline that uses the teacher's log-probabilities as per-token reward signals in a policy gradient framework. Experiments on the nuScenes benchmark show that GKD substantially outperforms the RL baseline and closely approaches teacher-level performance despite a 5$\times$ reduction in model size. These results highlight the practical value of on-policy distillation as a principled and effective approach to deploying LLM-based planners in autonomous driving systems.