Open-Ended Instruction Realization with LLM-Enabled Multi-Planner Scheduling in Autonomous Vehicles
作者: Jiawei Liu, Xun Gong, Fen Fang, Muli Yang, Bohao Qu, Yunfeng Hu, Hong Chen, Xulei Yang, Qing Guo
分类: cs.RO, cs.CV
发布日期: 2026-04-09
💡 一句话要点
提出基于LLM的多规划器调度框架,实现自动驾驶车辆中开放指令的执行。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 人机交互 自然语言处理 大型语言模型 模型预测控制 运动规划 指令实现
📋 核心要点
- 现有自动驾驶人机交互研究忽略了乘客的操控需求,自然语言指令到车辆控制信号的转换缺乏可解释性。
- 提出一种基于LLM的指令实现框架,通过调度多个MPC运动规划器,将高级指令转化为可执行的车辆控制。
- 实验结果表明,该框架提高了任务完成率,降低了LLM查询成本,并保证了安全性和合规性。
📝 摘要(中文)
本研究关注自动驾驶(AD)中人机交互(HMI)对乘客操控需求的忽略问题。自然语言提供了一种直观的交互界面,但如何将乘客的开放指令转化为控制信号,同时保证可解释性和可追溯性,仍然是一个挑战。为此,本研究提出了一种指令实现框架,该框架利用大型语言模型(LLM)来解释指令,生成可执行的脚本,根据实时反馈调度多个基于模型预测控制(MPC)的运动规划器,并将规划的轨迹转化为控制信号。这种以调度为中心的设计将语义推理与不同时间尺度的车辆控制解耦,建立了一条从高层指令到低层动作的透明、可追溯的决策链。由于缺乏高保真评估工具,本研究引入了一个用于闭环环境中开放指令实现的基准。综合实验表明,该框架显著提高了任务完成率,降低了LLM查询成本,实现了与专用AD方法相当的安全性和合规性,并对LLM推理延迟表现出相当大的容忍度。
🔬 方法详解
问题定义:现有自动驾驶系统在人机交互方面,难以将乘客的自然语言指令直接转化为车辆的控制信号,尤其是在开放指令场景下。现有的方法通常缺乏可解释性和可追溯性,难以保证安全性和乘客的舒适性。此外,缺乏针对开放指令实现的高保真评估工具。
核心思路:本研究的核心思路是利用大型语言模型(LLM)理解乘客的开放指令,并将其转化为可执行的脚本。该脚本负责调度多个基于模型预测控制(MPC)的运动规划器,从而将高级语义指令转化为低级的车辆控制动作。通过这种分层调度的方式,实现了语义推理与车辆控制的解耦,提高了系统的可解释性和可追溯性。
技术框架:该框架主要包含以下几个模块:1) LLM指令解析模块:负责接收乘客的自然语言指令,并利用LLM将其解析为可执行的脚本。2) 运动规划器调度模块:根据LLM生成的脚本,调度多个基于MPC的运动规划器。这些规划器负责生成车辆的运动轨迹。3) 轨迹跟踪控制模块:将规划的轨迹转化为车辆的控制信号,控制车辆的运动。4) 闭环评估基准:用于评估开放指令实现框架的性能,包括任务完成率、安全性、合规性等。
关键创新:该研究的关键创新在于:1) 提出了一个基于LLM的多规划器调度框架,实现了开放指令的执行。2) 将语义推理与车辆控制解耦,提高了系统的可解释性和可追溯性。3) 引入了一个用于开放指令实现的闭环评估基准。与现有方法相比,该框架能够更好地理解乘客的意图,并将其转化为安全、舒适的车辆控制动作。
关键设计:LLM的选择和Prompt的设计对指令解析的准确性至关重要。MPC运动规划器的参数需要根据不同的驾驶场景进行调整,以保证车辆的安全性和舒适性。调度策略需要考虑实时反馈,以适应动态变化的交通环境。闭环评估基准需要包含多种不同的驾驶场景和乘客指令,以全面评估框架的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在任务完成率方面显著优于基线方法,降低了LLM的查询成本,并在安全性和合规性方面达到了与专用自动驾驶方法相当的水平。此外,该框架对LLM推理延迟具有较强的容忍度,保证了系统的实时性。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的人机交互系统,提升乘客的乘坐体验。通过自然语言指令,乘客可以更方便地控制车辆,实现个性化的驾驶需求。此外,该技术还可以应用于机器人、智能家居等领域,实现更自然、智能的人机交互。
📄 摘要(原文)
Most Human-Machine Interaction (HMI) research overlooks the maneuvering needs of passengers in autonomous driving (AD). Natural language offers an intuitive interface, yet translating passenger open-ended instructions into control signals, without sacrificing interpretability and traceability, remains a challenge. This study proposes an instruction-realization framework that leverages a large language model (LLM) to interpret instructions, generates executable scripts that schedule multiple model predictive control (MPC)-based motion planners based on real-time feedback, and converts planned trajectories into control signals. This scheduling-centric design decouples semantic reasoning from vehicle control at different timescales, establishing a transparent, traceable decision-making chain from high-level instructions to low-level actions. Due to the absence of high-fidelity evaluation tools, this study introduces a benchmark for open-ended instruction realization in a closed-loop setting. Comprehensive experiments reveal that the framework significantly improves task-completion rates over instruction-realization baselines, reduces LLM query costs, achieves safety and compliance on par with specialized AD approaches, and exhibits considerable tolerance to LLM inference latency. For more qualitative illustrations and a clearer understanding.