SEG-Parking: Towards Safe, Efficient, and Generalizable Autonomous Parking via End-to-End Offline Reinforcement Learning

📄 arXiv: 2509.13956v1 📥 PDF

作者: Zewei Yang, Zengqi Peng, Jun Ma

分类: cs.RO

发布日期: 2025-09-17


💡 一句话要点

提出SEG-Parking,通过端到端离线强化学习实现安全、高效、泛化的自动泊车

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动泊车 离线强化学习 端到端学习 目标条件编码 保守策略优化 CARLA模拟器 自动驾驶

📋 核心要点

  1. 现有自动泊车方法难以应对非结构化环境和动态交互带来的挑战,导致泊车效率和安全性降低。
  2. SEG-Parking利用离线强化学习,通过预训练目标条件状态编码器和保守策略优化,实现交互感知的自动泊车。
  3. 在CARLA模拟器中的实验表明,SEG-Parking具有更高的成功率和对未见过的泊车场景的泛化能力。

📝 摘要(中文)

自动泊车是实现安全高效城市自动驾驶的关键组成部分。然而,非结构化环境和动态交互对自动泊车任务提出了重大挑战。为了解决这个问题,我们提出了SEG-Parking,一种新颖的端到端离线强化学习(RL)框架,以实现交互感知的自动泊车。特别地,我们构建了一个专门用于泊车场景的数据集,其中包括没有来自对面车辆(OV)干扰的场景,以及涉及与OV交互的复杂场景。基于该数据集,我们预训练了一个目标条件状态编码器,以将融合的感知信息映射到潜在空间。然后,使用保守正则化器优化离线RL策略,该正则化器惩罚超出分布的动作。在CARLA高保真模拟器中进行了广泛的闭环实验。对比结果表明,我们的框架具有卓越的性能,具有最高的成功率和对超出分布的泊车场景的鲁棒泛化能力。相关数据集和源代码将在论文被接受后公开发布。

🔬 方法详解

问题定义:自动泊车任务面临非结构化环境和动态交互带来的挑战,例如对面车辆的干扰,导致传统方法难以保证泊车的安全性和效率。现有方法通常依赖于复杂的规则或在线强化学习,前者难以适应复杂场景,后者需要大量的在线交互,存在安全风险。

核心思路:SEG-Parking的核心思路是利用离线强化学习,从预先收集的泊车数据集中学习泊车策略,避免在线探索带来的风险。通过预训练目标条件状态编码器,将感知信息映射到潜在空间,从而更好地理解环境和目标。同时,采用保守正则化器,限制策略输出的动作分布,避免超出数据集范围的动作,提高策略的鲁棒性。

技术框架:SEG-Parking框架主要包括三个模块:数据收集、目标条件状态编码器预训练和离线强化学习策略优化。首先,构建一个包含各种泊车场景的数据集,包括无干扰和有干扰的场景。然后,使用该数据集预训练一个目标条件状态编码器,将融合的感知信息(例如,车辆状态、目标位置、周围环境)编码到潜在空间。最后,使用离线强化学习算法(例如,Conservative Q-Learning)优化泊车策略,并使用保守正则化器惩罚超出分布的动作。

关键创新:SEG-Parking的关键创新在于:1) 提出了一个端到端的离线强化学习框架,可以直接从感知信息学习泊车策略,无需人工设计特征;2) 构建了一个专门用于泊车场景的数据集,包含各种复杂场景,为离线强化学习提供了数据基础;3) 采用目标条件状态编码器和保守正则化器,提高了策略的泛化能力和安全性。

关键设计:目标条件状态编码器采用Transformer结构,将感知信息和目标位置作为输入,输出潜在状态表示。离线强化学习算法采用Conservative Q-Learning (CQL),通过最小化Q函数的值来约束策略的输出,避免超出数据集范围的动作。损失函数包括Q函数损失、策略损失和保守损失,其中保守损失用于惩罚超出分布的动作。具体参数设置未知,需要在论文公开后进一步分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SEG-Parking在CARLA模拟器中进行了广泛的闭环实验,结果表明,该框架具有卓越的性能,具有最高的成功率和对超出分布的泊车场景的鲁棒泛化能力。具体性能数据和对比基线将在论文公开后进一步分析。

🎯 应用场景

SEG-Parking技术可应用于各种自动泊车场景,例如停车场、路边停车等。该技术能够提高泊车效率,降低事故风险,提升用户体验。未来,该技术还可以与其他自动驾驶模块集成,实现更高级别的自动驾驶功能,例如自动代客泊车。

📄 摘要(原文)

Autonomous parking is a critical component for achieving safe and efficient urban autonomous driving. However, unstructured environments and dynamic interactions pose significant challenges to autonomous parking tasks. To address this problem, we propose SEG-Parking, a novel end-to-end offline reinforcement learning (RL) framework to achieve interaction-aware autonomous parking. Notably, a specialized parking dataset is constructed for parking scenarios, which include those without interference from the opposite vehicle (OV) and complex ones involving interactions with the OV. Based on this dataset, a goal-conditioned state encoder is pretrained to map the fused perception information into the latent space. Then, an offline RL policy is optimized with a conservative regularizer that penalizes out-of-distribution actions. Extensive closed-loop experiments are conducted in the high-fidelity CARLA simulator. Comparative results demonstrate the superior performance of our framework with the highest success rate and robust generalization to out-of-distribution parking scenarios. The related dataset and source code will be made publicly available after the paper is accepted.