SEG-Parking: Towards Safe, Efficient, and Generalizable Autonomous Parking via End-to-End Offline Reinforcement Learning

作者: Zewei Yang, Zengqi Peng, Jun Ma

分类: cs.RO

发布日期: 2025-09-17

💡 一句话要点

提出SEG-Parking，通过端到端离线强化学习实现安全、高效、泛化的自动泊车

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动泊车 离线强化学习 端到端学习 目标条件编码 保守策略优化 CARLA模拟器 自动驾驶

📋 核心要点

现有自动泊车方法难以应对非结构化环境和动态交互带来的挑战，导致泊车效率和安全性降低。
SEG-Parking利用离线强化学习，通过预训练目标条件状态编码器和保守策略优化，实现交互感知的自动泊车。
在CARLA模拟器中的实验表明，SEG-Parking具有更高的成功率和对未见过的泊车场景的泛化能力。

📝 摘要（中文）

自动泊车是实现安全高效城市自动驾驶的关键组成部分。然而，非结构化环境和动态交互对自动泊车任务提出了重大挑战。为了解决这个问题，我们提出了SEG-Parking，一种新颖的端到端离线强化学习（RL）框架，以实现交互感知的自动泊车。特别地，我们构建了一个专门用于泊车场景的数据集，其中包括没有来自对面车辆（OV）干扰的场景，以及涉及与OV交互的复杂场景。基于该数据集，我们预训练了一个目标条件状态编码器，以将融合的感知信息映射到潜在空间。然后，使用保守正则化器优化离线RL策略，该正则化器惩罚超出分布的动作。在CARLA高保真模拟器中进行了广泛的闭环实验。对比结果表明，我们的框架具有卓越的性能，具有最高的成功率和对超出分布的泊车场景的鲁棒泛化能力。相关数据集和源代码将在论文被接受后公开发布。

🔬 方法详解

问题定义：自动泊车任务面临非结构化环境和动态交互带来的挑战，例如对面车辆的干扰，导致传统方法难以保证泊车的安全性和效率。现有方法通常依赖于复杂的规则或在线强化学习，前者难以适应复杂场景，后者需要大量的在线交互，存在安全风险。

核心思路：SEG-Parking的核心思路是利用离线强化学习，从预先收集的泊车数据集中学习泊车策略，避免在线探索带来的风险。通过预训练目标条件状态编码器，将感知信息映射到潜在空间，从而更好地理解环境和目标。同时，采用保守正则化器，限制策略输出的动作分布，避免超出数据集范围的动作，提高策略的鲁棒性。

技术框架：SEG-Parking框架主要包括三个模块：数据收集、目标条件状态编码器预训练和离线强化学习策略优化。首先，构建一个包含各种泊车场景的数据集，包括无干扰和有干扰的场景。然后，使用该数据集预训练一个目标条件状态编码器，将融合的感知信息（例如，车辆状态、目标位置、周围环境）编码到潜在空间。最后，使用离线强化学习算法（例如，Conservative Q-Learning）优化泊车策略，并使用保守正则化器惩罚超出分布的动作。

关键创新：SEG-Parking的关键创新在于：1) 提出了一个端到端的离线强化学习框架，可以直接从感知信息学习泊车策略，无需人工设计特征；2) 构建了一个专门用于泊车场景的数据集，包含各种复杂场景，为离线强化学习提供了数据基础；3) 采用目标条件状态编码器和保守正则化器，提高了策略的泛化能力和安全性。

关键设计：目标条件状态编码器采用Transformer结构，将感知信息和目标位置作为输入，输出潜在状态表示。离线强化学习算法采用Conservative Q-Learning (CQL)，通过最小化Q函数的值来约束策略的输出，避免超出数据集范围的动作。损失函数包括Q函数损失、策略损失和保守损失，其中保守损失用于惩罚超出分布的动作。具体参数设置未知，需要在论文公开后进一步分析。

🖼️ 关键图片

📊 实验亮点

SEG-Parking在CARLA模拟器中进行了广泛的闭环实验，结果表明，该框架具有卓越的性能，具有最高的成功率和对超出分布的泊车场景的鲁棒泛化能力。具体性能数据和对比基线将在论文公开后进一步分析。

🎯 应用场景

SEG-Parking技术可应用于各种自动泊车场景，例如停车场、路边停车等。该技术能够提高泊车效率，降低事故风险，提升用户体验。未来，该技术还可以与其他自动驾驶模块集成，实现更高级别的自动驾驶功能，例如自动代客泊车。

📄 摘要（原文）

Autonomous parking is a critical component for achieving safe and efficient urban autonomous driving. However, unstructured environments and dynamic interactions pose significant challenges to autonomous parking tasks. To address this problem, we propose SEG-Parking, a novel end-to-end offline reinforcement learning (RL) framework to achieve interaction-aware autonomous parking. Notably, a specialized parking dataset is constructed for parking scenarios, which include those without interference from the opposite vehicle (OV) and complex ones involving interactions with the OV. Based on this dataset, a goal-conditioned state encoder is pretrained to map the fused perception information into the latent space. Then, an offline RL policy is optimized with a conservative regularizer that penalizes out-of-distribution actions. Extensive closed-loop experiments are conducted in the high-fidelity CARLA simulator. Comparative results demonstrate the superior performance of our framework with the highest success rate and robust generalization to out-of-distribution parking scenarios. The related dataset and source code will be made publicly available after the paper is accepted.

SEG-Parking: Towards Safe, Efficient, and Generalizable Autonomous Parking via End-to-End Offline Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理