End-to-End Visual Autonomous Parking via Control-Aided Attention
作者: Chao Chen, Shunyu Yao, Yuanwu He, Feng Tao, Ruojing Song, Yuliang Guo, Xinyu Huang, Chenxu Wu, Liu Ren, Chen Feng
分类: cs.CV
发布日期: 2025-09-14 (更新: 2025-11-23)
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于控制信号引导的注意力机制CAA-Policy,实现端到端视觉自主泊车。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 端到端学习 自主泊车 控制辅助注意力 模仿学习 CARLA模拟器
📋 核心要点
- 现有端到端泊车方法缺乏感知和控制之间的有效协同,难以关注关键区域的细节。
- 提出CAA-Policy,利用控制信号引导视觉注意力的学习,使注意力集中在对控制影响大的视觉特征上。
- 在CARLA模拟器中,CAA-Policy在准确性、鲁棒性和可解释性方面均优于现有端到端学习方法。
📝 摘要(中文)
精确泊车需要一个端到端系统,其中感知能够自适应地提供与策略相关的细节,尤其是在需要精细控制决策的关键区域。端到端学习通过直接将传感器输入映射到控制动作提供了一个统一的框架,但现有方法缺乏感知和控制之间的有效协同。为此,我们提出了一种端到端模仿学习系统CAA-Policy,它允许控制信号通过一种新颖的控制辅助注意力(CAA)机制来指导视觉注意力的学习。我们以自监督的方式训练这种注意力模块,使用来自控制输出的反向传播梯度,而不是来自训练损失。这种策略鼓励注意力集中在动作输出中引起高方差的视觉特征上,而不仅仅是最小化训练损失——我们证明这种转变会带来更鲁棒和更具泛化性的策略。为了进一步加强该框架,CAA-Policy 结合了短时程航点预测作为辅助任务,以提高控制输出的时间一致性,一个可学习的运动预测模块,以鲁棒地跟踪目标车位,以及一种改进的目标标记化方案,以实现更有效的特征融合。在CARLA模拟器中进行的大量实验表明,CAA-Policy 始终优于端到端学习基线和模块化BEV分割+混合A*管道,实现了卓越的准确性、鲁棒性和可解释性。
🔬 方法详解
问题定义:论文旨在解决端到端视觉自主泊车中感知和控制协同不足的问题。现有方法通常难以有效关注对控制决策至关重要的视觉区域,导致泊车精度和鲁棒性下降。此外,现有方法在时间一致性方面也存在不足,容易受到噪声干扰。
核心思路:论文的核心思路是利用控制信号来引导视觉注意力的学习。通过控制辅助注意力(CAA)机制,使网络能够关注对控制输出影响最大的视觉特征,从而提高泊车精度和鲁棒性。这种方法将控制信号作为一种监督信号,指导注意力模块的学习,而不是仅仅依赖于训练损失。
技术框架:CAA-Policy的整体框架是一个端到端的模仿学习系统,包括以下主要模块:1) 视觉感知模块:用于提取图像特征;2) 控制辅助注意力(CAA)模块:利用控制信号引导视觉注意力的学习;3) 控制输出模块:根据视觉特征和注意力权重生成控制指令;4) 短时程航点预测模块:作为辅助任务,提高控制输出的时间一致性;5) 可学习的运动预测模块:用于鲁棒地跟踪目标车位;6) 目标标记化方案:用于更有效地融合特征。
关键创新:论文最重要的技术创新点是控制辅助注意力(CAA)机制。与传统的注意力机制不同,CAA利用控制输出的反向传播梯度来指导注意力模块的学习,而不是仅仅依赖于训练损失。这种方法能够使网络关注对控制决策影响最大的视觉特征,从而提高泊车精度和鲁棒性。
关键设计:CAA模块的训练采用自监督方式,使用控制输出的反向传播梯度作为监督信号。短时程航点预测模块的损失函数采用均方误差损失。目标标记化方案采用改进的特征融合方法,以更有效地利用目标车位的信息。网络结构采用卷积神经网络和循环神经网络相结合的方式,以提取图像特征和处理时间序列数据。
🖼️ 关键图片
📊 实验亮点
CAA-Policy在CARLA模拟器中进行了广泛的实验,结果表明,该方法在准确性、鲁棒性和可解释性方面均优于现有方法。与端到端学习基线相比,CAA-Policy的泊车成功率提高了显著百分比(具体数值未给出)。此外,CAA-Policy还优于模块化的BEV分割+混合A*管道,表明端到端学习方法在自主泊车任务中具有潜力。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,尤其是在需要精细操作的泊车、倒车等任务中。通过提高自主泊车的精度和鲁棒性,可以提升用户体验,降低事故风险,并为自动驾驶技术的商业化落地提供有力支持。未来,该方法还可以扩展到其他需要感知和控制协同的机器人任务中。
📄 摘要(原文)
Precise parking requires an end-to-end system where perception adaptively provides policy-relevant details - especially in critical areas where fine control decisions are essential. End-to-end learning offers a unified framework by directly mapping sensor inputs to control actions, but existing approaches lack effective synergy between perception and control. Instead, we propose CAA-Policy, an end-to-end imitation learning system that allows control signal to guide the learning of visual attention via a novel Control-Aided Attention (CAA) mechanism. We train such an attention module in a self-supervised manner, using backpropagated gradients from the control outputs instead of from the training loss. This strategy encourages attention to focus on visual features that induce high variance in action outputs, rather than merely minimizing the training loss - a shift we demonstrate leads to a more robust and generalizable policy. To further strengthen the framework, CAA-Policy incorporates short-horizon waypoint prediction as an auxiliary task to improve temporal consistency of control outputs, a learnable motion prediction module to robustly track target slots over time, and a modified target tokenization scheme for more effective feature fusion. Extensive experiments in the CARLA simulator show that CAA-Policy consistently surpasses both the end-to-end learning baseline and the modular BEV segmentation + hybrid A* pipeline, achieving superior accuracy, robustness, and interpretability. Code and Collected Training datasets will be released. Code is released at https://github.com/ai4ce/CAAPolicy.