Unveiling Uncertainty-Aware Autonomous Cooperative Learning Based Planning Strategy

📄 arXiv: 2510.11041v1 📥 PDF

作者: Shiyao Zhang, Liwei Deng, Shuyu Zhang, Weijie Yuan, Hong Zhang

分类: cs.RO

发布日期: 2025-10-13

备注: Accepted by IEEE RA-L


💡 一句话要点

提出基于不确定性感知的自主协同学习规划策略,提升多车交互的安全性和有效性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主协同规划 深度强化学习 不确定性感知 软演员-评论家 门控循环单元

📋 核心要点

  1. 现有自主协同规划方法难以充分解决感知、规划和通信等多种不确定性带来的挑战。
  2. 提出一种基于深度强化学习的自主协同规划框架,利用SAC算法和GRU网络学习不确定状态下的最优动作。
  3. 在CARLA仿真平台上验证了该方法的有效性,结果表明其性能优于其他基线方法。

📝 摘要(中文)

在未来的智能交通系统中,自主协同规划(ACP)是一种很有前景的技术,可以提高多车辆交互的效率和安全性。然而,现有的ACP策略无法完全解决多种不确定性,例如感知、规划和通信的不确定性。为了解决这些问题,本文提出了一种基于深度强化学习的自主协同规划(DRLACP)框架,以应对协同运动规划方案中的各种不确定性。具体而言,采用带有门控循环单元(GRU)的软演员-评论家(SAC)算法,以学习由规划、通信和感知不确定性引起的不完善状态信息下的确定性最优时变动作。此外,自主车辆(AV)的实时动作通过Car Learning to Act (CARLA)仿真平台进行演示。评估结果表明,所提出的DRLACP能够有效地学习和执行协同规划,并且在具有不完善AV状态信息的不同场景下,优于其他基线方法。

🔬 方法详解

问题定义:论文旨在解决多智能体自主协同规划中,由于感知、通信和规划本身的不确定性导致的规划性能下降问题。现有方法通常假设环境是完全可观测的,或者忽略这些不确定性,导致在实际应用中效果不佳。因此,如何设计一种能够有效处理这些不确定性的自主协同规划策略是本文要解决的关键问题。

核心思路:论文的核心思路是利用深度强化学习(DRL)方法,通过学习的方式来适应和处理这些不确定性。具体来说,采用软演员-评论家(SAC)算法,该算法能够学习随机策略,从而更好地探索环境并找到最优解。此外,引入门控循环单元(GRU)来处理时序信息,从而更好地建模车辆之间的交互和状态变化。

技术框架:整体框架包括以下几个主要模块:1) 环境建模:使用CARLA仿真平台模拟真实交通环境,包括车辆动力学、传感器噪声和通信延迟等。2) 状态表示:将车辆的状态信息(位置、速度、加速度等)以及其他车辆的信息作为输入。3) 动作空间:定义车辆可以执行的动作,例如加速、减速和转向。4) 奖励函数:设计奖励函数来鼓励车辆安全、高效地完成协同规划任务。5) DRL智能体:使用SAC算法和GRU网络来学习最优策略。

关键创新:论文的关键创新在于将SAC算法和GRU网络结合起来,用于解决自主协同规划中的不确定性问题。SAC算法能够学习随机策略,从而更好地探索环境,而GRU网络能够处理时序信息,从而更好地建模车辆之间的交互。这种结合使得该方法能够有效地处理感知、通信和规划中的不确定性。

关键设计:在网络结构方面,GRU网络用于提取状态信息的时序特征,然后将这些特征输入到SAC算法的演员和评论家网络中。奖励函数的设计考虑了多个因素,包括安全性(避免碰撞)、效率(尽快到达目的地)和舒适性(避免急加速和急减速)。具体的参数设置需要根据具体的仿真环境进行调整,例如学习率、折扣因子和探索率等。

📊 实验亮点

实验结果表明,所提出的DRLACP方法在不同的仿真场景下均优于其他基线方法。例如,在高速公路汇入场景中,DRLACP方法能够显著减少碰撞次数,并提高车辆的平均速度。与传统的基于规则的方法相比,DRLACP方法能够更好地适应不同的交通状况,并做出更合理的决策。具体提升幅度未知,原文未给出具体数值。

🎯 应用场景

该研究成果可应用于未来的智能交通系统,例如自动驾驶出租车、自动驾驶物流车队等。通过提高多车辆协同规划的效率和安全性,可以减少交通事故、缓解交通拥堵,并提高运输效率。此外,该方法还可以扩展到其他多智能体协同任务中,例如机器人编队、无人机协同等。

📄 摘要(原文)

In future intelligent transportation systems, autonomous cooperative planning (ACP), becomes a promising technique to increase the effectiveness and security of multi-vehicle interactions. However, multiple uncertainties cannot be fully addressed for existing ACP strategies, e.g. perception, planning, and communication uncertainties. To address these, a novel deep reinforcement learning-based autonomous cooperative planning (DRLACP) framework is proposed to tackle various uncertainties on cooperative motion planning schemes. Specifically, the soft actor-critic (SAC) with the implementation of gate recurrent units (GRUs) is adopted to learn the deterministic optimal time-varying actions with imperfect state information occurred by planning, communication, and perception uncertainties. In addition, the real-time actions of autonomous vehicles (AVs) are demonstrated via the Car Learning to Act (CARLA) simulation platform. Evaluation results show that the proposed DRLACP learns and performs cooperative planning effectively, which outperforms other baseline methods under different scenarios with imperfect AV state information.