Automated Parking Trajectory Generation Using Deep Reinforcement Learning

作者: Zheyu Zhang, Yutong Luo, Yongzhou Chen, Haopeng Zhao, Zhichao Ma, Hao Liu

分类: cs.RO

发布日期: 2025-04-29

💡 一句话要点

提出基于SAC深度强化学习的自动泊车轨迹生成方法，提升复杂环境适应性和效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动泊车 深度强化学习 软演员-评论家算法 连续控制 轨迹生成

📋 核心要点

自动泊车需要在复杂环境中具备高精度、强适应性和高效率，传统方法难以兼顾这些要求。
论文提出基于SAC的深度强化学习框架，通过熵正则化平衡探索与利用，优化连续动作空间的车辆控制。
仿真结果表明，该方法在泊车成功率、操纵时间和动态障碍物处理方面优于传统方法和其他DRL算法。

📝 摘要（中文）

本文提出了一种基于软演员-评论家(SAC)算法的深度强化学习(DRL)框架，用于优化自动泊车任务。SAC是一种带有熵正则化的离策略方法，特别适用于连续动作空间，能够实现精细的车辆控制。我们将泊车任务建模为马尔可夫决策过程(MDP)，并训练智能体通过最大化熵来平衡探索和利用，从而最大化累积奖励。该系统集成了多个传感器输入到高维状态空间，并利用SAC的双评论家网络和策略网络来实现稳定的学习。仿真结果表明，基于SAC的方法具有较高的泊车成功率、更短的操纵时间和对动态障碍物的鲁棒处理能力，优于传统的基于规则的方法和其他DRL算法。这项研究证明了SAC在自动泊车中的潜力，并为实际应用奠定了基础。

🔬 方法详解

问题定义：论文旨在解决自动泊车场景中，车辆如何在复杂环境中生成安全、高效的泊车轨迹的问题。现有基于规则的方法适应性差，难以处理动态环境；而传统的强化学习方法在连续动作空间中训练不稳定，难以实现精细的车辆控制。

核心思路：论文的核心思路是将自动泊车任务建模为马尔可夫决策过程(MDP)，并利用软演员-评论家(SAC)算法训练智能体。SAC算法通过最大化熵来鼓励探索，平衡了探索和利用，从而提高了学习的稳定性和效率。同时，SAC适用于连续动作空间，能够实现对车辆的精细控制。

技术框架：该框架主要包含以下几个模块：1) 环境建模：将泊车环境建模为MDP，包括状态空间、动作空间和奖励函数。状态空间包含车辆的位置、速度、朝向以及周围障碍物的信息。动作空间为车辆的油门和方向盘转角。奖励函数设计为引导车辆安全、快速地到达目标泊车位。2) SAC智能体：使用SAC算法训练智能体，包括策略网络和两个评论家网络。策略网络用于生成车辆的动作，评论家网络用于评估当前状态-动作对的价值。3) 训练过程：通过与环境交互，智能体不断学习和优化策略，最终实现自动泊车。

关键创新：论文的关键创新在于将SAC算法应用于自动泊车任务，并针对泊车场景设计了合适的奖励函数和状态空间。SAC算法的熵正则化机制能够有效提高学习的稳定性和探索能力，使其能够更好地适应复杂环境。此外，该方法能够直接输出连续的控制指令，避免了离散动作空间带来的控制精度损失。

关键设计：论文中，状态空间包含了车辆的位置、速度、朝向以及周围障碍物的信息，奖励函数设计为引导车辆安全、快速地到达目标泊车位，并对碰撞和超出边界的行为进行惩罚。SAC算法使用了两个评论家网络来减少估计偏差，并使用目标策略平滑来提高学习的稳定性。具体的网络结构和超参数设置在论文中进行了详细描述（未知）。

📊 实验亮点

仿真结果表明，基于SAC的自动泊车方法具有较高的泊车成功率、更短的操纵时间和对动态障碍物的鲁棒处理能力。与传统的基于规则的方法和其他DRL算法相比，该方法在各项指标上均有显著提升（具体数据未知）。这验证了SAC算法在自动泊车任务中的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景，例如自动泊车系统、自动驾驶出租车和物流车辆等。通过提高自动泊车的效率和安全性，可以显著提升用户体验，降低事故风险，并节省停车空间。此外，该方法还可以扩展到其他需要精确轨迹控制的机器人应用中，例如无人机和水下机器人。

📄 摘要（原文）

Autonomous parking is a key technology in modern autonomous driving systems, requiring high precision, strong adaptability, and efficiency in complex environments. This paper proposes a Deep Reinforcement Learning (DRL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize autonomous parking tasks. SAC, an off-policy method with entropy regularization, is particularly well-suited for continuous action spaces, enabling fine-grained vehicle control. We model the parking task as a Markov Decision Process (MDP) and train an agent to maximize cumulative rewards while balancing exploration and exploitation through entropy maximization. The proposed system integrates multiple sensor inputs into a high-dimensional state space and leverages SAC's dual critic networks and policy network to achieve stable learning. Simulation results show that the SAC-based approach delivers high parking success rates, reduced maneuver times, and robust handling of dynamic obstacles, outperforming traditional rule-based methods and other DRL algorithms. This study demonstrates SAC's potential in autonomous parking and lays the foundation for real-world applications.

Automated Parking Trajectory Generation Using Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理