Digital Twin-based Cooperative Autonomous Driving in Smart Intersections: A Multi-Agent Reinforcement Learning Approach

📄 arXiv: 2509.15099v1 📥 PDF

作者: Taoyuan Yu, Kui Wang, Zongdian Li, Tao Yu, Kei Sakaguchi, Walid Saad

分类: eess.SY

发布日期: 2025-09-18


💡 一句话要点

提出基于数字孪生的合作式自动驾驶系统,解决智能路口无信号交叉口的安全性与效率问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数字孪生 合作式自动驾驶 强化学习 多智能体系统 智能路口

📋 核心要点

  1. 无信号交叉口存在交通流复杂和盲点问题,对安全性和效率构成挑战。
  2. 提出基于数字孪生的合作驾驶系统,利用鸟瞰图感知消除盲点,采用混合强化学习框架。
  3. 实验表明,该方法在协调多个自动驾驶车辆时,显著降低了故障率,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种基于数字孪生(DT)的合作驾驶系统,该系统采用以路侧单元(RSU)为中心的架构,旨在提高无信号交叉路口的安全性与效率。该系统利用全面的鸟瞰图(BEV)感知来消除盲点,并采用混合强化学习(RL)框架,结合离线预训练和在线微调。具体而言,首先使用保守Q学习(CQL)和行为克隆(BC)在真实数据集上训练驾驶策略,然后使用具有自注意力机制的多智能体近端策略优化(MAPPO)进行微调,以处理动态多智能体协调。RSU通过车路协同(V2I)通信实现实时命令。实验结果表明,所提出的方法在协调多达三个联网自动驾驶车辆(CAV)时,故障率低于0.03%,显著优于传统方法。此外,该系统表现出亚线性计算扩展性,推理时间低于40毫秒。同时,它还在各种无信号交叉路口场景中表现出强大的泛化能力,表明其具有在现实世界中部署的实用性和准备度。

🔬 方法详解

问题定义:论文旨在解决无信号交叉路口中,由于交通参与者之间的信息不对称和潜在冲突导致的安全性与效率问题。现有方法,如基于规则的控制策略或传统的强化学习方法,难以有效处理复杂动态的交通环境,并且泛化能力有限。

核心思路:论文的核心思路是利用数字孪生技术构建交叉路口的精确虚拟模型,结合路侧单元(RSU)进行全局感知,并通过混合强化学习算法训练智能体的合作驾驶策略。这种方法旨在通过全局信息共享和智能决策,提高交叉路口的通行效率和安全性。

技术框架:该系统主要包含三个模块:1) 数字孪生模块,用于构建交叉路口的虚拟环境,并模拟车辆的运动行为;2) 感知模块,通过RSU获取全局的鸟瞰图(BEV)信息,消除盲点;3) 决策模块,采用混合强化学习算法,包括离线预训练和在线微调两个阶段。离线预训练使用保守Q学习(CQL)和行为克隆(BC)从真实数据集中学习初始策略,在线微调使用多智能体近端策略优化(MAPPO)算法,结合自注意力机制,实现多智能体之间的协同驾驶。

关键创新:该论文的关键创新在于:1) 提出了一种基于数字孪生的合作驾驶系统,能够有效利用全局信息进行决策;2) 采用混合强化学习框架,结合离线预训练和在线微调,提高了算法的训练效率和泛化能力;3) 使用自注意力机制的MAPPO算法,增强了多智能体之间的协同能力。

关键设计:在离线预训练阶段,使用CQL和BC算法,旨在学习一个保守的初始策略,避免在探索过程中出现危险行为。在线微调阶段,使用MAPPO算法,并引入自注意力机制,使智能体能够关注其他智能体的状态信息,从而实现更好的协同驾驶。损失函数包括策略梯度损失、值函数损失和熵正则化项,以平衡探索和利用。网络结构采用多层感知机(MLP)或循环神经网络(RNN),用于提取状态特征和生成动作。

📊 实验亮点

实验结果表明,该方法在协调多达三个联网自动驾驶车辆时,故障率低于0.03%,显著优于传统方法。同时,该系统表现出亚线性计算扩展性,推理时间低于40毫秒,表明其具有实时性。此外,该系统在各种无信号交叉路口场景中表现出强大的泛化能力,验证了其在实际场景中部署的可行性。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车辆测试验证、以及城市交通规划与管理等领域。通过在实际交通环境中部署该系统,可以显著提高交叉路口的通行效率,降低交通事故发生率,并为未来智能交通系统的发展提供技术支撑。此外,该方法还可以扩展到其他复杂的交通场景,如高速公路匝道、环岛等。

📄 摘要(原文)

Unsignalized intersections pose safety and efficiency challenges due to complex traffic flows and blind spots. In this paper, a digital twin (DT)-based cooperative driving system with roadside unit (RSU)-centric architecture is proposed for enhancing safety and efficiency at unsignalized intersections. The system leverages comprehensive bird-eye-view (BEV) perception to eliminate blind spots and employs a hybrid reinforcement learning (RL) framework combining offline pre-training with online fine-tuning. Specifically, driving policies are initially trained using conservative Q-learning (CQL) with behavior cloning (BC) on real datasets, then fine-tuned using multi-agent proximal policy optimization (MAPPO) with self-attention mechanisms to handle dynamic multi-agent coordination. The RSU implements real-time commands via vehicle-to-infrastructure (V2I) communications. Experimental results show that the proposed method yields failure rates below 0.03\% coordinating up to three connected autonomous vehicles (CAVs), significantly outperforming traditional methods. In addition, the system exhibits sub-linear computational scaling with inference times under 40 ms. Furthermore, it demonstrates robust generalization across diverse unsignalized intersection scenarios, indicating its practicality and readiness for real-world deployment.