Planning Safety Trajectories with Dual-Phase, Physics-Informed, and Transportation Knowledge-Driven Large Language Models
作者: Rui Gan, Pei Li, Keke Long, Bocheng An, Junwei You, Keshu Wu, Bin Ran
分类: cs.RO, cs.AI
发布日期: 2025-04-06
💡 一句话要点
提出LetsPi框架,融合物理信息与知识驱动LLM,实现安全轨迹规划
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 轨迹规划 大语言模型 物理信息 社会力模型 自动驾驶
📋 核心要点
- 现有驾驶场景轨迹规划模型缺乏交通安全知识,存在幻觉和不确定性问题,推理延迟较长。
- LetsPi框架融合LLM推理与物理信息社会力模型,利用双阶段架构平衡推理效率,提升轨迹规划的安全性与类人程度。
- 实验表明,LetsPi在HighD数据集上,多个安全指标均优于现有基线模型,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为LetsPi的物理信息、双阶段、知识驱动框架,用于安全且类人的轨迹规划,旨在克服现有基础模型在驾驶相关任务中存在的幻觉、不确定性和长推理延迟等挑战。LetsPi将大语言模型(LLM)推理与物理信息社会力动力学相结合,以防止幻觉并最小化不确定性。LLM分析驾驶场景和历史信息,为社会力模型提供适当的参数和目标目的地,从而生成未来轨迹。双阶段架构通过记忆收集阶段和快速推理阶段平衡了推理和计算效率。记忆收集阶段利用物理信息LLM通过推理、反思和记忆模块处理和改进规划结果,并将安全、高质量的驾驶经验存储在记忆库中。引入代理安全措施和物理信息提示技术,分别增强LLM对交通安全和物理力的知识。快速推理阶段提取相似的驾驶经验作为新场景的小样本示例,同时简化输入输出要求,以实现快速轨迹规划而不影响安全性。使用HighD数据集进行的大量实验表明,LetsPi在五个安全指标上优于基线模型。
🔬 方法详解
问题定义:现有基于深度学习的轨迹规划方法,特别是基于大型语言模型的方法,虽然具备一定的泛化能力,但在交通场景下,容易产生幻觉,缺乏对物理规律和交通规则的深入理解,导致规划出的轨迹不安全或不合理。此外,直接使用LLM进行轨迹规划计算量大,推理速度慢,难以满足实时性要求。
核心思路:本文的核心思路是将LLM的推理能力与传统的物理模型相结合,利用LLM理解场景和提取知识,为物理模型提供参数和目标,然后利用物理模型生成轨迹。通过这种方式,既可以利用LLM的知识,又可以保证轨迹的物理可行性和安全性。同时,采用双阶段架构,离线构建记忆库,在线快速推理,平衡了计算效率和推理质量。
技术框架:LetsPi框架包含两个主要阶段:记忆收集阶段和快速推理阶段。在记忆收集阶段,首先利用物理信息提示技术增强LLM对交通安全和物理力的理解。然后,LLM分析驾驶场景,生成轨迹规划结果,并通过推理、反思和记忆模块进行改进,最终将高质量的驾驶经验存储在记忆库中。在快速推理阶段,对于新的驾驶场景,首先从记忆库中提取相似的驾驶经验作为小样本示例,然后利用LLM进行快速推理,生成轨迹。
关键创新:本文的关键创新在于:1) 提出了一个融合LLM和物理模型的混合框架,既利用了LLM的知识,又保证了轨迹的物理可行性;2) 提出了双阶段架构,平衡了计算效率和推理质量;3) 引入了物理信息提示技术和代理安全措施,增强了LLM对交通安全和物理力的理解。
关键设计:在记忆收集阶段,使用了物理信息提示技术,通过设计特定的prompt,引导LLM学习交通安全和物理力的相关知识。在快速推理阶段,通过简化输入输出要求,减少了LLM的计算量,提高了推理速度。此外,还设计了代理安全措施,用于评估轨迹的安全性,并指导LLM进行改进。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LetsPi在HighD数据集上,五个安全指标(包括Minimum Time-To-Collision, Post Encroachment Time等)均优于基线模型。例如,在某些指标上,LetsPi的性能提升超过10%,证明了其在安全轨迹规划方面的有效性。此外,快速推理阶段的计算效率也得到了显著提升,满足了实时性要求。
🎯 应用场景
该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)等领域,提升车辆在复杂交通环境下的安全性和智能化水平。通过融合LLM的知识和物理模型的精确性,可以实现更安全、更可靠的轨迹规划,减少交通事故的发生,并提高交通效率。未来,该方法还可以扩展到其他机器人导航和控制任务中。
📄 摘要(原文)
Foundation models have demonstrated strong reasoning and generalization capabilities in driving-related tasks, including scene understanding, planning, and control. However, they still face challenges in hallucinations, uncertainty, and long inference latency. While existing foundation models have general knowledge of avoiding collisions, they often lack transportation-specific safety knowledge. To overcome these limitations, we introduce LetsPi, a physics-informed, dual-phase, knowledge-driven framework for safe, human-like trajectory planning. To prevent hallucinations and minimize uncertainty, this hybrid framework integrates Large Language Model (LLM) reasoning with physics-informed social force dynamics. LetsPi leverages the LLM to analyze driving scenes and historical information, providing appropriate parameters and target destinations (goals) for the social force model, which then generates the future trajectory. Moreover, the dual-phase architecture balances reasoning and computational efficiency through its Memory Collection phase and Fast Inference phase. The Memory Collection phase leverages the physics-informed LLM to process and refine planning results through reasoning, reflection, and memory modules, storing safe, high-quality driving experiences in a memory bank. Surrogate safety measures and physics-informed prompt techniques are introduced to enhance the LLM's knowledge of transportation safety and physical force, respectively. The Fast Inference phase extracts similar driving experiences as few-shot examples for new scenarios, while simplifying input-output requirements to enable rapid trajectory planning without compromising safety. Extensive experiments using the HighD dataset demonstrate that LetsPi outperforms baseline models across five safety metrics.See PDF for project Github link.