Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

作者: Saeed Rahmani, Gözde Körpe, Zhenlin, Xu, Bruno Brito, Simeon Craig Calvert, Bart van Arem

分类: cs.RO, cs.AI, eess.SY

发布日期: 2026-04-15

备注: This work has been submitted to the IEEE for possible publication

💡 一句话要点

提出基于耦合MPC与深度强化学习的自动驾驶方法，提升多智能体场景下的安全性和效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 模型预测控制 深度强化学习 多智能体系统 交通场景 决策控制 安全性 泛化能力

📋 核心要点

现有自动驾驶方法在复杂多智能体交互场景中，难以兼顾安全性和效率，保守策略导致通行效率低下。
本文提出耦合MPC与深度强化学习的框架，利用MPC的约束处理能力和RL的自适应学习能力，实现更优的驾驶策略。
实验表明，该方法在多智能体场景中显著降低碰撞率，提高成功率，并具备良好的跨场景泛化能力。

📝 摘要（中文）

本文提出了一种集成的模型预测控制（MPC）与深度强化学习（RL）框架，旨在提升多智能体场景下的自动驾驶导航性能。MPC通过优化提供结构化的约束处理，但依赖于手工设计的规则，导致行为过于保守。RL从经验中学习自适应行为，但难以保证安全性和泛化能力。实验结果表明，MPC-RL在三种交通密度下均优于单独的MPC和端到端RL。与纯MPC相比，MPC-RL降低了21%的碰撞率，提高了6.5%的成功率。零样本迁移到高速公路汇入场景的评估表明，基于MPC的方法比端到端PPO具有更好的跨场景鲁棒性。此外，MPC-RL在训练过程中比端到端RL更快地稳定损失，表明学习负担有所降低。该集成方法能够更好地平衡多智能体交叉口场景中的安全性和效率，并且MPC组件为跨驾驶环境的泛化提供了坚实的基础。代码已开源。

🔬 方法详解

问题定义：论文旨在解决多智能体场景下自动驾驶车辆在非信号交叉口的安全高效通行问题。现有方法，如纯MPC，虽然能保证安全性，但由于依赖人工设计的保守规则，导致车辆行为过于谨慎，通行效率较低。而端到端强化学习方法虽然能学习到更高效的策略，但难以保证安全性和泛化性。

核心思路：论文的核心思路是将MPC和深度强化学习相结合，利用MPC提供安全保障和结构化约束，同时利用深度强化学习学习更高效的驾驶策略。通过这种方式，可以克服纯MPC的保守性和端到端RL的安全性问题，实现安全和效率的平衡。

技术框架：该框架包含MPC和RL两个主要模块。MPC作为底层控制器，负责生成安全可行的轨迹。RL模块则学习一个策略，用于调整MPC的目标函数或约束条件，从而影响MPC的行为。整体流程是：首先，RL模块根据当前环境状态输出动作；然后，MPC根据该动作调整其优化目标，生成轨迹；最后，车辆执行该轨迹，并获得环境反馈，用于更新RL策略。

关键创新：该论文的关键创新在于将MPC和RL紧密耦合，而非简单地将RL作为MPC的参数调节器。通过RL对MPC的目标函数或约束条件进行动态调整，使得MPC能够根据环境变化做出更灵活的决策，从而提高通行效率。这种耦合方式既保证了安全性，又提高了效率。

关键设计：论文中，RL模块采用近端策略优化（PPO）算法，学习一个策略网络，该网络以环境状态为输入，输出对MPC目标函数的调整量。MPC的目标函数通常包含对车辆速度、加速度、与周围车辆的距离等因素的约束。RL通过调整这些约束的权重，来影响MPC的行为。损失函数的设计需要考虑安全性、效率和舒适性等因素，具体形式未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与纯MPC相比，该方法在多智能体交叉口场景中碰撞率降低了21%，成功率提高了6.5%。此外，该方法在零样本迁移到高速公路汇入场景时，表现出比端到端PPO更好的泛化能力。同时，该方法在训练过程中比端到端RL更快地稳定损失，表明学习效率更高。

🎯 应用场景

该研究成果可应用于自动驾驶车辆在复杂交通环境中的决策与控制，尤其是在非信号交叉口、环岛、高速公路汇入等场景。通过提高自动驾驶车辆的安全性和通行效率，可以减少交通事故，缓解交通拥堵，提升出行体验，并为未来智能交通系统的发展奠定基础。

📄 摘要（原文）

Automated driving at unsignalized intersections is challenging due to complex multi-vehicle interactions and the need to balance safety and efficiency. Model Predictive Control (MPC) offers structured constraint handling through optimization but relies on hand-crafted rules that often produce overly conservative behavior. Deep Reinforcement Learning (RL) learns adaptive behaviors from experience but often struggles with safety assurance and generalization to unseen environments. In this study, we present an integrated MPC-RL framework to improve navigation performance in multi-agent scenarios. Experiments show that MPC-RL outperforms standalone MPC and end-to-end RL across three traffic-density levels. Collectively, MPC-RL reduces the collision rate by 21% and improves the success rate by 6.5% compared to pure MPC. We further evaluate zero-shot transfer to a highway merging scenario without retraining. Both MPC-based methods transfer substantially better than end-to-end PPO, which highlights the role of the MPC backbone in cross-scenario robustness. The framework also shows faster loss stabilization than end-to-end RL during training, which indicates a reduced learning burden. These results suggest that the integrated approach can improve the balance between safety performance and efficiency in multi-agent intersection scenarios, while the MPC component provides a strong foundation for generalization across driving environments. The implementation code is available open-source.

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理