Digital Twin-based Cooperative Autonomous Driving in Smart Intersections: A Multi-Agent Reinforcement Learning Approach

📄 arXiv: 2509.15099v1 📥 PDF

作者: Taoyuan Yu, Kui Wang, Zongdian Li, Tao Yu, Kei Sakaguchi, Walid Saad

分类: eess.SY

发布日期: 2025-09-18


💡 一句话要点

提出基于数字孪生的合作式自动驾驶系统,解决无信号交叉口的安全与效率问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数字孪生 合作式自动驾驶 强化学习 多智能体 无信号交叉口

📋 核心要点

  1. 无信号交叉口存在交通流复杂和盲点等问题,对安全和效率构成挑战。
  2. 提出基于数字孪生的合作驾驶系统,利用鸟瞰图感知消除盲点,并结合离线预训练和在线微调的混合强化学习框架。
  3. 实验结果表明,该方法显著降低了故障率,并具有良好的计算扩展性和泛化能力。

📝 摘要(中文)

本文提出了一种基于数字孪生(DT)的合作驾驶系统,该系统采用以路侧单元(RSU)为中心的架构,旨在提高无信号交叉口的安全性和效率。该系统利用全面的鸟瞰图(BEV)感知来消除盲点,并采用混合强化学习(RL)框架,结合离线预训练和在线微调。具体而言,首先使用保守Q学习(CQL)和行为克隆(BC)在真实数据集上训练驾驶策略,然后使用具有自注意力机制的多智能体近端策略优化(MAPPO)进行微调,以处理动态多智能体协调。RSU通过车路协同(V2I)通信实现实时命令。实验结果表明,所提出的方法在协调多达三个联网自动驾驶车辆(CAV)时,故障率低于0.03%,显著优于传统方法。此外,该系统表现出亚线性计算扩展,推理时间低于40毫秒。此外,它还在各种无信号交叉口场景中表现出强大的泛化能力,表明其在现实世界部署中的实用性和准备性。

🔬 方法详解

问题定义:论文旨在解决无信号交叉口中由于复杂交通流和盲点导致的安全和效率问题。现有方法在处理多智能体协同和动态环境变化方面存在不足,难以保证自动驾驶车辆的安全高效通行。

核心思路:论文的核心思路是构建一个基于数字孪生的合作驾驶系统,利用路侧单元(RSU)获取全局信息,并通过混合强化学习框架训练车辆的驾驶策略。通过离线预训练和在线微调相结合的方式,提高策略的鲁棒性和适应性。

技术框架:该系统主要包含三个模块:1) 数字孪生环境构建,用于模拟真实交通场景;2) 离线预训练阶段,使用CQL和BC算法在离线数据集上训练初始策略;3) 在线微调阶段,使用MAPPO算法和自注意力机制,在数字孪生环境中进行多智能体协同训练。RSU负责收集环境信息,并将决策指令通过V2I通信发送给车辆。

关键创新:该论文的关键创新在于提出了一种混合强化学习框架,将离线预训练和在线微调相结合,充分利用了离线数据和在线交互的优势。同时,引入自注意力机制,增强了智能体之间的协同能力。此外,基于数字孪生的系统架构能够提供更全面的环境感知,降低了盲点带来的安全风险。

关键设计:离线预训练阶段,使用CQL算法来约束Q函数的估计,避免过估计问题,提高策略的安全性。在线微调阶段,使用MAPPO算法来保证策略的稳定性,并引入自注意力机制来学习智能体之间的依赖关系。损失函数包括CQL损失、BC损失和MAPPO损失。网络结构采用Actor-Critic框架,Actor网络输出车辆的动作,Critic网络评估当前状态的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在协调多达三个联网自动驾驶车辆时,故障率低于0.03%,显著优于传统方法。此外,该系统表现出亚线性计算扩展,推理时间低于40毫秒,表明其具有良好的实时性和可扩展性。该系统还在各种无信号交叉口场景中表现出强大的泛化能力。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车辆和车路协同等领域。通过部署该系统,可以显著提高无信号交叉口的安全性和通行效率,减少交通事故的发生,并为未来的智能城市建设提供技术支持。该系统还可扩展到其他复杂的交通场景,如高速公路匝道和城市道路网络。

📄 摘要(原文)

Unsignalized intersections pose safety and efficiency challenges due to complex traffic flows and blind spots. In this paper, a digital twin (DT)-based cooperative driving system with roadside unit (RSU)-centric architecture is proposed for enhancing safety and efficiency at unsignalized intersections. The system leverages comprehensive bird-eye-view (BEV) perception to eliminate blind spots and employs a hybrid reinforcement learning (RL) framework combining offline pre-training with online fine-tuning. Specifically, driving policies are initially trained using conservative Q-learning (CQL) with behavior cloning (BC) on real datasets, then fine-tuned using multi-agent proximal policy optimization (MAPPO) with self-attention mechanisms to handle dynamic multi-agent coordination. The RSU implements real-time commands via vehicle-to-infrastructure (V2I) communications. Experimental results show that the proposed method yields failure rates below 0.03\% coordinating up to three connected autonomous vehicles (CAVs), significantly outperforming traditional methods. In addition, the system exhibits sub-linear computational scaling with inference times under 40 ms. Furthermore, it demonstrates robust generalization across diverse unsignalized intersection scenarios, indicating its practicality and readiness for real-world deployment.