LeAD: The LLM Enhanced Planning System Converged with End-to-end Autonomous Driving
作者: Yuhang Zhang, Jiaqi Liu, Chengkai Xu, Peng Hang, Jian Sun
分类: cs.RO, cs.AI
发布日期: 2025-07-08
💡 一句话要点
LeAD:融合端到端自动驾驶与LLM增强规划系统,解决复杂城市场景问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 大型语言模型 端到端学习 多模态融合 思维链 场景理解 智能决策
📋 核心要点
- 城市自动驾驶系统面临复杂场景和极端情况的挑战,现有系统难以有效理解交通环境中的语义信息。
- LeAD采用双速率架构,结合高频E2E控制和低频LLM增强规划,提升复杂场景下的决策能力。
- 实验结果表明,LeAD在CARLA模拟器中表现出色,Leaderboard V1基准测试中获得71分,路线完成率达93%。
📝 摘要(中文)
本文提出LeAD,一种双速率自动驾驶架构,它将基于模仿学习的端到端(E2E)框架与大型语言模型(LLM)增强相结合。高频E2E子系统维护实时的感知-规划-控制循环,而低频LLM模块通过融合多模态感知信息与高清地图来增强场景理解,并在基线规划器遇到能力限制时,通过思维链(CoT)推理得出最优决策。在CARLA模拟器中的实验评估表明,LeAD能够更好地处理非常规场景,在Leaderboard V1基准测试中达到71分,路线完成率为93%。
🔬 方法详解
问题定义:现有自动驾驶系统在复杂城市场景中,尤其是在遇到非常规情况时,难以准确理解交通参与者的意图和环境语义信息,导致决策与人类驾驶员的推理模式不一致。这限制了自动驾驶系统的大规模部署。
核心思路:LeAD的核心思路是利用大型语言模型(LLM)的强大推理能力来增强自动驾驶系统的场景理解和决策能力。通过将LLM与传统的端到端(E2E)自动驾驶框架相结合,LeAD能够在E2E系统遇到困难时,利用LLM进行更高级别的推理和规划。
技术框架:LeAD采用双速率架构。高频E2E子系统负责实时感知、规划和控制,确保车辆的快速响应和基本驾驶功能。低频LLM模块则负责更复杂的场景理解和决策。LLM模块接收来自多模态感知系统(包括摄像头、激光雷达等)的信息以及高清地图数据,然后通过思维链(CoT)推理生成更优的驾驶决策。这些决策可以指导E2E系统的行为,或者在E2E系统失效时直接控制车辆。
关键创新:LeAD的关键创新在于将LLM引入到自动驾驶系统的规划层面,并与传统的E2E框架有效融合。这种融合使得系统既能保持E2E框架的实时性,又能利用LLM的强大推理能力来处理复杂场景。与仅依赖E2E或规则的系统相比,LeAD能够更好地理解场景语义,做出更符合人类驾驶员习惯的决策。
关键设计:LLM模块的关键设计包括:1) 多模态信息融合机制,将来自不同传感器的数据整合为LLM可理解的输入;2) 思维链(CoT)推理过程,引导LLM逐步分析场景并生成决策;3) LLM输出的决策如何转化为E2E系统的控制指令的接口设计。论文中未明确提及具体的参数设置、损失函数和网络结构等细节,这些可能是未来研究的方向。
🖼️ 关键图片
📊 实验亮点
LeAD在CARLA模拟器的Leaderboard V1基准测试中取得了显著成果,达到71分,路线完成率高达93%。这表明LeAD在处理复杂和非常规的自动驾驶场景方面具有优越的性能。相较于传统的自动驾驶系统,LeAD能够更好地理解场景语义并做出更合理的决策。
🎯 应用场景
LeAD技术可应用于城市自动驾驶出租车、物流配送等领域,尤其是在需要处理复杂交通状况和不确定因素的场景中。通过提升自动驾驶系统的安全性和可靠性,LeAD有助于加速自动驾驶技术的商业化落地,并有望在未来改善城市交通效率和安全性。
📄 摘要(原文)
A principal barrier to large-scale deployment of urban autonomous driving systems lies in the prevalence of complex scenarios and edge cases. Existing systems fail to effectively interpret semantic information within traffic contexts and discern intentions of other participants, consequently generating decisions misaligned with skilled drivers' reasoning patterns. We present LeAD, a dual-rate autonomous driving architecture integrating imitation learning-based end-to-end (E2E) frameworks with large language model (LLM) augmentation. The high-frequency E2E subsystem maintains real-time perception-planning-control cycles, while the low-frequency LLM module enhances scenario comprehension through multi-modal perception fusion with HD maps and derives optimal decisions via chain-of-thought (CoT) reasoning when baseline planners encounter capability limitations. Our experimental evaluation in the CARLA Simulator demonstrates LeAD's superior handling of unconventional scenarios, achieving 71 points on Leaderboard V1 benchmark, with a route completion of 93%.