Reward-Augmented Reinforcement Learning for Continuous Control in Precision Autonomous Parking via Policy Optimization Methods

📄 arXiv: 2507.19642v2 📥 PDF

作者: Ahmad Suleman, Misha Urooj Khan, Zeeshan Kaleem, Ali H. Alenezi, Iqra Shabbir, Sinem Coleri, Chau Yuen

分类: cs.RO, eess.SY

发布日期: 2025-07-25 (更新: 2025-08-04)


💡 一句话要点

提出奖励增强强化学习框架RARLAP,用于解决复杂环境下的精准自动泊车连续控制问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动泊车 强化学习 奖励函数设计 连续控制 策略优化 里程碑奖励 机器人

📋 核心要点

  1. 传统自动泊车方法难以适应环境复杂性和非线性,泛化能力不足,无法保证安全性和效率。
  2. RARLAP框架通过设计结构化奖励函数,引导强化学习策略学习,从而在连续控制中实现更平滑和适应性强的泊车行为。
  3. 实验表明,里程碑增强奖励(MAR)结合on-policy方法,成功率达到91%,显著提升了轨迹平滑性和鲁棒性。

📝 摘要(中文)

自动泊车(AP)是智能车辆自动化的一个关键但复杂的子集,其特点是空间约束严格、频繁的近距离障碍物交互以及严格的安全裕度。传统的基于规则和模型预测的方法通常缺乏处理AP的非线性和环境依赖复杂性所需的适应性和泛化能力。为了解决这些局限性,我们提出了一种用于AP的奖励增强学习框架(RARLAP),通过利用结构化奖励设计来诱导平滑和适应性强的策略行为,从而减轻连续域控制的固有复杂性,该框架完全在基于Unity的高保真定制3D仿真环境中训练。我们系统地设计和评估了三种结构化奖励策略:仅目标奖励(GOR)、密集邻近奖励(DPR)和里程碑增强奖励(MAR),每种策略都与on-policy和off-policy优化范式集成。经验评估表明,on-policy MAR实现了91%的成功率,产生了更平滑的轨迹和更鲁棒的行为,而GOR和DPR未能指导有效的学习。收敛性和轨迹分析表明,所提出的框架增强了策略适应性,加速了训练,并提高了连续控制的安全性。总体而言,RARLAP表明奖励增强有效地解决了复杂的自动泊车挑战,从而可以使用on-policy和off-policy方法实现可扩展且高效的策略优化。为了支持可重复性,本文随附的代码已公开发布。

🔬 方法详解

问题定义:论文旨在解决复杂环境下的精准自动泊车连续控制问题。现有基于规则和模型预测的自动泊车方法难以适应环境变化,泛化能力差,且难以处理近距离障碍物交互,导致安全性和效率问题。

核心思路:论文的核心思路是通过奖励增强来引导强化学习策略的学习。通过精心设计的奖励函数,鼓励智能体学习到更平滑、更安全、更高效的泊车轨迹。这种方法旨在克服传统方法的局限性,提高策略的适应性和鲁棒性。

技术框架:RARLAP框架主要包含以下几个部分:1) 基于Unity的高保真3D仿真环境,用于训练和评估自动泊车策略;2) 三种结构化奖励策略:仅目标奖励(GOR)、密集邻近奖励(DPR)和里程碑增强奖励(MAR);3) on-policy和off-policy强化学习算法,用于优化策略。整体流程是:智能体在仿真环境中与环境交互,根据奖励函数获得反馈,然后通过强化学习算法更新策略,最终学习到最优的自动泊车策略。

关键创新:论文的关键创新在于提出了奖励增强学习框架RARLAP,并设计了里程碑增强奖励(MAR)策略。MAR策略通过在关键位置设置里程碑,引导智能体逐步完成泊车任务,从而加速学习过程,提高策略的稳定性和成功率。与传统的稀疏奖励或密集奖励相比,MAR策略能够更好地平衡探索和利用,从而获得更好的性能。

关键设计:论文的关键设计包括:1) 三种奖励函数的具体形式,例如MAR策略中里程碑的设置和奖励值的分配;2) 强化学习算法的选择和参数调整,例如学习率、折扣因子等;3) 仿真环境的搭建和参数设置,例如车辆模型、传感器模型、障碍物设置等。这些设计细节直接影响到策略的学习效果和最终性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于里程碑增强奖励(MAR)和on-policy算法的RARLAP框架,在自动泊车任务中取得了91%的成功率,显著优于仅目标奖励(GOR)和密集邻近奖励(DPR)策略。轨迹分析表明,MAR策略能够生成更平滑、更安全的泊车轨迹,提高了策略的鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在狭窄空间或复杂环境下的车辆泊车。通过优化泊车策略,可以提高泊车效率,减少碰撞风险,提升用户体验。此外,该方法还可以扩展到其他需要精确控制的机器人应用领域,例如无人机着陆、机械臂操作等。

📄 摘要(原文)

Autonomous parking (AP) represents a critical yet complex subset of intelligent vehicle automation, characterized by tight spatial constraints, frequent close-range obstacle interactions, and stringent safety margins. However, conventional rule-based and model-predictive methods often lack the adaptability and generalization needed to handle the nonlinear and environment-dependent complexities of AP. To address these limitations, we propose a reward-augmented learning framework for AP (RARLAP), that mitigates the inherent complexities of continuous-domain control by leveraging structured reward design to induce smooth and adaptable policy behavior, trained entirely within a high-fidelity Unity-based custom 3D simulation environment. We systematically design and assess three structured reward strategies: goal-only reward (GOR), dense proximity reward (DPR), and milestone-augmented reward (MAR), each integrated with both on-policy and off-policy optimization paradigms. Empirical evaluations demonstrate that the on-policy MAR achieves a 91\% success rate, yielding smoother trajectories and more robust behavior, while GOR and DPR fail to guide effective learning. Convergence and trajectory analyses demonstrate that the proposed framework enhances policy adaptability, accelerates training, and improves safety in continuous control. Overall, RARLAP establishes that reward augmentation effectively addresses complex autonomous parking challenges, enabling scalable and efficient policy optimization with both on- and off-policy methods. To support reproducibility, the code accompanying this paper is publicly available.