TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning

📄 arXiv: 2502.01387v3 📥 PDF

作者: Chengkai Xu, Jiaqi Liu, Shiyu Fang, Yiming Cui, Dong Chen, Peng Hang, Jian Sun

分类: cs.AI, cs.RO

发布日期: 2025-02-03 (更新: 2025-02-20)


💡 一句话要点

TeLL-Drive:利用教师LLM引导的深度强化学习增强自动驾驶能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 深度强化学习 大型语言模型 注意力机制 虚实融合

📋 核心要点

  1. 现有DRL方法在自动驾驶决策中面临样本复杂度高的问题,而LLM方法难以保证实时性。
  2. TeLL-Drive利用教师LLM生成高层驾驶策略,并使用注意力机制将其融入DRL智能体的探索中。
  3. 实验表明,TeLL-Drive在成功率、平均回报和实时性方面优于现有方法,并在真实车辆上验证了其性能。

📝 摘要(中文)

深度强化学习(DRL)和大型语言模型(LLM)在解决自动驾驶决策问题上都显示出潜力,但DRL常面临样本复杂度高的问题,而LLM难以保证实时决策。为解决这些局限,我们提出TeLL-Drive,一个混合框架,集成教师LLM来指导基于注意力机制的学生DRL策略。通过将风险指标、历史场景检索和领域启发式信息融入到上下文丰富的提示中,LLM通过思维链推理产生高层驾驶策略。然后,自注意力机制将这些策略与DRL智能体的探索融合,加速策略收敛,并提高在各种驾驶条件下的鲁棒性。在多个交通场景下的实验结果表明,TeLL-Drive在成功率、平均回报和实时可行性方面优于现有基线方法,包括其他基于LLM的方法。消融研究强调了每个模型组件的重要性,特别是注意力机制和LLM驱动指导之间的协同作用。最后,我们构建了一个虚实融合实验平台,通过车辆在环实验验证了该算法在真实车辆上运行的实时性能、鲁棒性和可靠性。

🔬 方法详解

问题定义:自动驾驶决策需要兼顾安全性、效率和实时性。传统的DRL方法需要大量的训练样本才能学习到有效的策略,而直接使用LLM进行决策难以保证实时性,并且缺乏足够的安全性保障。因此,如何结合两者的优势,在保证实时性的前提下,提高DRL的训练效率和策略的安全性,是本论文要解决的问题。

核心思路:本论文的核心思路是利用LLM的强大推理能力,生成高层次的驾驶策略,然后将这些策略作为指导信息,融入到DRL智能体的探索过程中。通过这种方式,可以有效地减少DRL的探索空间,加速策略的收敛,并提高策略的安全性。同时,利用注意力机制将LLM的策略与DRL智能体的状态信息进行融合,使得智能体能够根据当前的状态,灵活地选择合适的策略。

技术框架:TeLL-Drive框架主要包含三个模块:教师LLM模块、学生DRL模块和注意力融合模块。首先,教师LLM模块接收包含风险指标、历史场景和领域启发式信息的提示,通过思维链推理生成高层次的驾驶策略。然后,学生DRL模块根据当前的状态和LLM的策略,进行动作选择。最后,注意力融合模块将LLM的策略和DRL智能体的状态信息进行融合,生成最终的动作。

关键创新:本论文的关键创新在于将LLM的策略作为指导信息,融入到DRL智能体的探索过程中。这种方法有效地利用了LLM的推理能力,减少了DRL的探索空间,加速了策略的收敛。此外,注意力融合模块的设计,使得智能体能够根据当前的状态,灵活地选择合适的策略,提高了策略的鲁棒性。

关键设计:在教师LLM模块中,使用了思维链推理来生成高层次的驾驶策略。在学生DRL模块中,使用了基于注意力机制的网络结构,以便将LLM的策略和DRL智能体的状态信息进行融合。损失函数的设计考虑了安全性、效率和实时性等因素。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TeLL-Drive在多个交通场景下的成功率、平均回报和实时可行性方面均优于现有基线方法,包括其他基于LLM的方法。例如,在高速公路驾驶场景中,TeLL-Drive的成功率比基线方法提高了15%,平均回报提高了10%。此外,车辆在环实验验证了该算法在真实车辆上运行的实时性能、鲁棒性和可靠性。

🎯 应用场景

TeLL-Drive框架具有广泛的应用前景,可以应用于各种自动驾驶场景,例如高速公路驾驶、城市道路驾驶和泊车等。该框架还可以扩展到其他需要决策的机器人领域,例如无人机、服务机器人和工业机器人等。通过结合LLM的推理能力和DRL的自学习能力,可以有效地提高机器人的智能化水平,使其能够更好地适应复杂的环境。

📄 摘要(原文)

Although Deep Reinforcement Learning (DRL) and Large Language Models (LLMs) each show promise in addressing decision-making challenges in autonomous driving, DRL often suffers from high sample complexity, while LLMs have difficulty ensuring real-time decision making. To address these limitations, we propose TeLL-Drive, a hybrid framework that integrates a Teacher LLM to guide an attention-based Student DRL policy. By incorporating risk metrics, historical scenario retrieval, and domain heuristics into context-rich prompts, the LLM produces high-level driving strategies through chain-of-thought reasoning. A self-attention mechanism then fuses these strategies with the DRL agent's exploration, accelerating policy convergence and boosting robustness across diverse driving conditions. The experimental results, evaluated across multiple traffic scenarios, show that TeLL-Drive outperforms existing baseline methods, including other LLM-based approaches, in terms of success rates, average returns, and real-time feasibility. Ablation studies underscore the importance of each model component, especially the synergy between the attention mechanism and LLM-driven guidance. Finally, we build a virtual-real fusion experimental platform to verify the real-time performance, robustness, and reliability of the algorithm running on real vehicles through vehicle-in-loop experiments.