Automated Parking Trajectory Generation Using Deep Reinforcement Learning

📄 arXiv: 2504.21071v1 📥 PDF

作者: Zheyu Zhang, Yutong Luo, Yongzhou Chen, Haopeng Zhao, Zhichao Ma, Hao Liu

分类: cs.RO

发布日期: 2025-04-29


💡 一句话要点

提出基于SAC深度强化学习的自动泊车轨迹生成方法,提升复杂环境适应性和效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动泊车 深度强化学习 软演员-评论家算法 连续控制 轨迹生成

📋 核心要点

  1. 自动泊车需要在复杂环境中具备高精度、强适应性和高效率,传统方法难以兼顾这些要求。
  2. 论文提出基于SAC的深度强化学习框架,通过熵正则化平衡探索与利用,优化连续动作空间的车辆控制。
  3. 仿真结果表明,该方法在泊车成功率、操纵时间和动态障碍物处理方面优于传统方法和其他DRL算法。

📝 摘要(中文)

本文提出了一种基于软演员-评论家(SAC)算法的深度强化学习(DRL)框架,用于优化自动泊车任务。SAC是一种带有熵正则化的离策略方法,特别适用于连续动作空间,能够实现精细的车辆控制。我们将泊车任务建模为马尔可夫决策过程(MDP),并训练智能体通过最大化熵来平衡探索和利用,从而最大化累积奖励。该系统集成了多个传感器输入到高维状态空间,并利用SAC的双评论家网络和策略网络来实现稳定的学习。仿真结果表明,基于SAC的方法具有较高的泊车成功率、更短的操纵时间和对动态障碍物的鲁棒处理能力,优于传统的基于规则的方法和其他DRL算法。这项研究证明了SAC在自动泊车中的潜力,并为实际应用奠定了基础。

🔬 方法详解

问题定义:论文旨在解决自动泊车场景中,车辆如何在复杂环境中生成安全、高效的泊车轨迹的问题。现有基于规则的方法适应性差,难以处理动态环境;而传统的强化学习方法在连续动作空间中训练不稳定,难以实现精细的车辆控制。

核心思路:论文的核心思路是将自动泊车任务建模为马尔可夫决策过程(MDP),并利用软演员-评论家(SAC)算法训练智能体。SAC算法通过最大化熵来鼓励探索,平衡了探索和利用,从而提高了学习的稳定性和效率。同时,SAC适用于连续动作空间,能够实现对车辆的精细控制。

技术框架:该框架主要包含以下几个模块:1) 环境建模:将泊车环境建模为MDP,包括状态空间、动作空间和奖励函数。状态空间包含车辆的位置、速度、朝向以及周围障碍物的信息。动作空间为车辆的油门和方向盘转角。奖励函数设计为引导车辆安全、快速地到达目标泊车位。2) SAC智能体:使用SAC算法训练智能体,包括策略网络和两个评论家网络。策略网络用于生成车辆的动作,评论家网络用于评估当前状态-动作对的价值。3) 训练过程:通过与环境交互,智能体不断学习和优化策略,最终实现自动泊车。

关键创新:论文的关键创新在于将SAC算法应用于自动泊车任务,并针对泊车场景设计了合适的奖励函数和状态空间。SAC算法的熵正则化机制能够有效提高学习的稳定性和探索能力,使其能够更好地适应复杂环境。此外,该方法能够直接输出连续的控制指令,避免了离散动作空间带来的控制精度损失。

关键设计:论文中,状态空间包含了车辆的位置、速度、朝向以及周围障碍物的信息,奖励函数设计为引导车辆安全、快速地到达目标泊车位,并对碰撞和超出边界的行为进行惩罚。SAC算法使用了两个评论家网络来减少估计偏差,并使用目标策略平滑来提高学习的稳定性。具体的网络结构和超参数设置在论文中进行了详细描述(未知)。

📊 实验亮点

仿真结果表明,基于SAC的自动泊车方法具有较高的泊车成功率、更短的操纵时间和对动态障碍物的鲁棒处理能力。与传统的基于规则的方法和其他DRL算法相比,该方法在各项指标上均有显著提升(具体数据未知)。这验证了SAC算法在自动泊车任务中的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,例如自动泊车系统、自动驾驶出租车和物流车辆等。通过提高自动泊车的效率和安全性,可以显著提升用户体验,降低事故风险,并节省停车空间。此外,该方法还可以扩展到其他需要精确轨迹控制的机器人应用中,例如无人机和水下机器人。

📄 摘要(原文)

Autonomous parking is a key technology in modern autonomous driving systems, requiring high precision, strong adaptability, and efficiency in complex environments. This paper proposes a Deep Reinforcement Learning (DRL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize autonomous parking tasks. SAC, an off-policy method with entropy regularization, is particularly well-suited for continuous action spaces, enabling fine-grained vehicle control. We model the parking task as a Markov Decision Process (MDP) and train an agent to maximize cumulative rewards while balancing exploration and exploitation through entropy maximization. The proposed system integrates multiple sensor inputs into a high-dimensional state space and leverages SAC's dual critic networks and policy network to achieve stable learning. Simulation results show that the SAC-based approach delivers high parking success rates, reduced maneuver times, and robust handling of dynamic obstacles, outperforming traditional rule-based methods and other DRL algorithms. This study demonstrates SAC's potential in autonomous parking and lays the foundation for real-world applications.