Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving

📄 arXiv: 2412.18511v1 📥 PDF

作者: Hao Pang, Zhenpo Wang, Guoqiang Li

分类: cs.RO

发布日期: 2024-12-24

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于大语言模型引导的深度强化学习框架,提升自动驾驶决策效率与性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 深度强化学习 大语言模型 专家指导 决策制定

📋 核心要点

  1. DRL在自动驾驶决策中面临学习效率低和依赖大量计算资源的问题,且人工专家指导成本高昂。
  2. 该论文提出LGDRL框架,利用LLM作为驾驶专家,通过专家策略约束和LLM干预交互机制指导DRL学习。
  3. 实验结果表明,LGDRL在任务成功率、学习效率和专家指导利用率方面均优于现有方法,且具备鲁棒性。

📝 摘要(中文)

深度强化学习(DRL)在自动驾驶决策方面展现出潜力,但由于学习效率低,在复杂场景中获得合格策略需要大量计算资源。此外,利用人类专家指导来提升DRL性能会带来高昂的人力成本,限制了其应用。本研究提出了一种新的大语言模型(LLM)引导的深度强化学习(LGDRL)框架,用于解决自动驾驶车辆的决策问题。该框架将基于LLM的驾驶专家集成到DRL中,为DRL的学习过程提供智能指导。随后,为了有效利用LLM专家的指导来增强DRL决策策略的性能,通过创新的专家策略约束算法和新型的LLM干预交互机制来增强DRL的学习和交互过程。实验结果表明,该方法不仅实现了卓越的驾驶性能(90%的任务成功率),而且与最先进的基线算法相比,显著提高了学习效率和专家指导利用效率。此外,该方法使DRL智能体在没有LLM专家指导的情况下也能保持一致和可靠的性能。

🔬 方法详解

问题定义:自动驾驶决策需要在复杂环境中做出安全高效的驾驶行为。传统的DRL方法学习效率低下,需要大量的试错和计算资源。人工专家指导虽然有效,但成本过高,难以大规模应用。因此,如何高效地利用专家知识,提升DRL在自动驾驶决策中的学习效率和性能是一个关键问题。

核心思路:该论文的核心思路是利用大语言模型(LLM)作为驾驶专家,为DRL提供智能指导。LLM具有强大的知识表示和推理能力,可以模拟人类驾驶员的决策过程。通过将LLM的指导融入到DRL的学习过程中,可以加速DRL的收敛速度,并提升其决策性能。这样设计的目的是为了克服传统DRL方法学习效率低和人工指导成本高的缺点。

技术框架:LGDRL框架主要包含三个模块:DRL智能体、LLM驾驶专家和交互机制。DRL智能体负责与环境交互并学习驾驶策略。LLM驾驶专家根据当前环境状态提供驾驶指导。交互机制则负责将LLM的指导信息融入到DRL的学习过程中。具体流程是:DRL智能体观察环境状态,LLM驾驶专家根据状态给出驾驶建议,交互机制将LLM的建议作为约束或奖励信号,引导DRL智能体学习。

关键创新:该论文的关键创新在于提出了专家策略约束算法和LLM干预交互机制。专家策略约束算法通过限制DRL智能体的行为空间,使其更倾向于学习LLM专家的策略。LLM干预交互机制则允许LLM在DRL学习过程中进行干预,例如在关键时刻提供指导或纠正错误行为。这两个创新点使得DRL能够更有效地利用LLM的指导,从而提升学习效率和性能。

关键设计:专家策略约束算法的具体实现方式是,在DRL的损失函数中加入一个惩罚项,该惩罚项衡量DRL智能体的行为与LLM专家建议行为之间的差异。LLM干预交互机制的具体实现方式是,在DRL的训练过程中,以一定的概率随机选择LLM专家进行干预。干预的方式可以是直接替换DRL智能体的行为,也可以是修改DRL智能体的奖励信号。具体的参数设置(例如惩罚项的权重、干预的概率)需要根据具体的实验环境进行调整。

📊 实验亮点

实验结果表明,LGDRL方法在自动驾驶任务中取得了显著的性能提升,任务成功率达到90%,显著优于现有的DRL算法。与基线算法相比,LGDRL在学习效率和专家指导利用效率方面也得到了显著提高。此外,即使在没有LLM专家指导的情况下,LGDRL也能保持一致和可靠的性能,表明其具有良好的鲁棒性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。通过利用LLM的知识和推理能力,可以提升自动驾驶系统的安全性、效率和舒适性。此外,该方法还可以扩展到其他机器人领域,例如无人机、服务机器人等,提高机器人的自主决策能力。

📄 摘要(原文)

Deep reinforcement learning (DRL) shows promising potential for autonomous driving decision-making. However, DRL demands extensive computational resources to achieve a qualified policy in complex driving scenarios due to its low learning efficiency. Moreover, leveraging expert guidance from human to enhance DRL performance incurs prohibitively high labor costs, which limits its practical application. In this study, we propose a novel large language model (LLM) guided deep reinforcement learning (LGDRL) framework for addressing the decision-making problem of autonomous vehicles. Within this framework, an LLM-based driving expert is integrated into the DRL to provide intelligent guidance for the learning process of DRL. Subsequently, in order to efficiently utilize the guidance of the LLM expert to enhance the performance of DRL decision-making policies, the learning and interaction process of DRL is enhanced through an innovative expert policy constrained algorithm and a novel LLM-intervened interaction mechanism. Experimental results demonstrate that our method not only achieves superior driving performance with a 90\% task success rate but also significantly improves the learning efficiency and expert guidance utilization efficiency compared to state-of-the-art baseline algorithms. Moreover, the proposed method enables the DRL agent to maintain consistent and reliable performance in the absence of LLM expert guidance. The code and supplementary videos are available at https://bitmobility.github.io/LGDRL/.