LA-RL: Language Action-guided Reinforcement Learning with Safety Guarantees for Autonomous Highway Driving

作者: Yiming Shu, Jiahui Xu, Jiwei Tang, Ruiyang Gao, Chen Sun

分类: eess.SY

发布日期: 2025-12-05

💡 一句话要点

提出基于语言动作引导强化学习的LA-RL框架，保障自动驾驶安全并提升效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 大型语言模型 安全保障 模型预测控制

📋 核心要点

现有自动驾驶方法难以兼顾驾驶效率和安全性，尤其是在复杂交通环境中。
LA-RL框架利用LLM进行语义推理，结合改进的安全层，实现安全保障下的高效驾驶。
实验表明，LA-RL显著优于现有方法，成功率提升20%-30%，在低密度环境达到100%。

📝 摘要（中文）

本文提出了一种具有安全保障的语言动作引导强化学习（LA-RL）框架，用于自动高速公路驾驶。该框架将大型语言模型（LLM）的语义推理集成到actor-critic架构中，并结合改进的安全层。通过任务特定的奖励塑造，LA-RL协调了最大化驾驶效率和确保安全的双重目标，基于环境洞察和明确定义的目标来指导决策。为了增强安全性，LA-RL结合了模型预测控制（MPC）和离散控制障碍函数（DCBFs）的安全关键规划器，将LLM指导的策略正式约束到安全动作集，并采用松弛机制来提高解的可行性，防止过度保守的行为，并在不损害安全性的前提下允许更大的策略探索。大量实验表明，该方法显著优于几种当前最先进的方法，为自动高速公路驾驶提供了一种更具适应性、可靠性和鲁棒性的解决方案。与现有的SOTA方法相比，其成功率比基于知识图（KG）的基线高约20％，比基于检索增强生成（RAG）的基线高约30％。在低密度环境中，LA-RL的成功率达到100％。这些结果证实了其增强的state-action空间探索能力，以及在复杂的混合交通高速公路环境中自主采用更高效、更主动策略的能力。

🔬 方法详解

问题定义：自动驾驶需要在追求效率的同时保证安全性，尤其是在高速公路这种复杂场景下。现有的强化学习方法在探索和利用之间难以平衡，容易出现不安全的行为。此外，如何有效地利用环境信息（例如其他车辆的意图）也是一个挑战。

核心思路：论文的核心思路是将大型语言模型（LLM）的语义理解能力融入到强化学习框架中，利用LLM对环境信息进行推理，指导策略学习。同时，引入一个安全层，使用模型预测控制（MPC）和离散控制障碍函数（DCBFs）来保证策略的安全性，防止出现危险行为。

技术框架：LA-RL框架主要包含三个模块：1) 基于LLM的Actor-Critic网络，负责策略学习和价值评估；2) 任务特定的奖励塑造，用于平衡驾驶效率和安全性；3) 安全关键规划器，结合MPC和DCBFs，确保策略的安全性。整体流程是：首先，LLM根据环境信息生成动作建议；然后，Actor-Critic网络根据LLM的建议和当前状态选择动作；最后，安全关键规划器对选择的动作进行验证，确保其安全性，如果动作不安全，则将其修正为安全动作。

关键创新：最重要的创新点在于将LLM的语义推理能力与强化学习相结合，利用LLM对环境信息进行更深入的理解，从而指导策略学习。此外，安全关键规划器的设计也保证了策略的安全性，防止出现危险行为。与现有方法的本质区别在于，LA-RL能够更好地利用环境信息，并在保证安全性的前提下实现更高的驾驶效率。

关键设计：任务特定的奖励函数设计是关键，需要平衡驾驶效率和安全性。安全关键规划器中的MPC和DCBFs的参数设置也需要仔细调整，以保证其能够有效地约束策略，同时避免过度保守的行为。此外，LLM的选择和训练也对最终的性能有重要影响。论文中使用了slack机制来提高MPC的可行性，允许策略在一定范围内进行探索，而不会立即被安全层阻止。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LA-RL在自动驾驶任务中显著优于现有方法。与基于知识图（KG）的基线相比，成功率提高了约20％，与基于检索增强生成（RAG）的基线相比，成功率提高了约30％。在低密度环境中，LA-RL的成功率达到了100％，表明其具有很强的适应性和鲁棒性。这些结果验证了LA-RL在复杂交通环境中的有效性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景，尤其是在高速公路、城市道路等复杂交通环境中。通过提高自动驾驶系统的安全性和效率，可以减少交通事故，提高交通效率，并为未来的智能交通系统奠定基础。此外，该方法还可以扩展到其他需要安全保障的强化学习应用中，例如机器人控制、金融交易等。

📄 摘要（原文）

Autonomous highway driving demands a critical balance between proactive, efficiency-seeking behavior and robust safety guarantees. This paper proposes Language Action-guided Reinforcement Learning (LA-RL) with Safety Guarantees, a novel framework that integrates the semantic reasoning of large language models (LLMs) into the actor-critic architecture with an improved safety layer. Within this framework, task-specific reward shaping harmonizes the dual objectives of maximizing driving efficiency and ensuring safety, guiding decision-making based on both environmental insights and clearly defined goals. To enhance safety, LA-RL incorporates a safety-critical planner that combines model predictive control (MPC) with discrete control barrier functions (DCBFs). This layer formally constrains the LLM-informed policy to a safe action set, employs a slack mechanism that enhances solution feasibility, prevents overly conservative behavior and allows for greater policy exploration without compromising safety. Extensive experiments demonstrate that it significantly outperforms several current state-of-the-art methods, offering a more adaptive, reliable, and robust solution for autonomous highway driving. Compared to existing SOTA, it achieves approximately 20$\%$ higher success rate than the knowledge graph (KG) based baseline and about 30$\%$ higher than the retrieval augmented generation (RAG) based baseline. In low-density environments, LA-RL achieves a 100$\%$ success rate. These results confirm its enhanced exploration of the state-action space and its ability to autonomously adopt more efficient, proactive strategies in complex, mixed-traffic highway environments.

LA-RL: Language Action-guided Reinforcement Learning with Safety Guarantees for Autonomous Highway Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理