Dino-Diffusion Modular Designs Bridge the Cross-Domain Gap in Autonomous Parking

📄 arXiv: 2510.20335v1 📥 PDF

作者: Zixuan Wu, Hengyuan Zhang, Ting-Hsuan Chen, Yuliang Guo, David Paz, Xinyu Huang, Liu Ren

分类: cs.RO, cs.CV

发布日期: 2025-10-23

备注: Code is at https://github.com/ChampagneAndfragrance/Dino_Diffusion_Parking_Official


💡 一句话要点

Dino-Diffusion Parking:模块化设计弥合自动泊车跨域差距

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动泊车 领域泛化 视觉基础模型 扩散模型 运动规划 零样本学习 跨域适应

📋 核心要点

  1. 现有端到端自动泊车方法在特定领域表现良好,但在面对天气、光照等领域偏移时,鲁棒性不足。
  2. Dino-Diffusion Parking (DDP) 结合视觉基础模型和扩散模型,实现领域无关的感知和鲁棒的运动规划。
  3. 实验表明,DDP 在各种分布外场景中泊车成功率超过 90%,并在 sim-to-real 迁移中表现出潜力。

📝 摘要(中文)

泊车是驾驶安全的关键支柱。虽然最近的端到端(E2E)方法在领域内取得了可喜的成果,但在领域偏移(如天气和光照变化)下的鲁棒性仍然是一个关键挑战。本文提出Dino-Diffusion Parking (DDP),一种领域无关的自动泊车流程,它将视觉基础模型与基于扩散的规划相结合,以实现广义感知和在分布偏移下鲁棒的运动规划,而不是依赖于额外的数据。我们在CARLA中以常规设置训练我们的流程,并以零样本方式将其转移到更具对抗性的设置中。我们的模型在所有测试的分布外(OOD)场景中始终达到90%以上的泊车成功率,消融研究证实,网络架构和算法设计都显著提高了现有基线在跨域性能方面的表现。此外,在从真实停车场重建的3D高斯溅射(3DGS)环境中进行的测试也展示了有希望的sim-to-real迁移。

🔬 方法详解

问题定义:现有端到端自动泊车方法在特定领域表现良好,但当环境发生变化(例如,天气、光照条件变化)时,性能会显著下降。这种领域泛化能力不足是实际应用中的一个主要痛点。现有方法通常依赖于大量特定领域的数据进行训练,难以适应未见过的场景。

核心思路:DDP的核心思路是利用视觉基础模型(DINO)的强大特征提取能力和扩散模型的生成能力,将感知和规划解耦,从而提高模型的领域泛化能力。DINO 负责提取场景的鲁棒特征,扩散模型则基于这些特征生成可行的泊车轨迹。这种模块化设计使得模型能够更好地适应不同的环境条件。

技术框架:DDP 包含两个主要模块:感知模块和规划模块。感知模块使用 DINO 模型提取环境的视觉特征。规划模块是一个基于扩散模型的运动规划器,它以 DINO 提取的特征作为条件,生成一系列可能的泊车轨迹。然后,选择最优的轨迹执行泊车动作。整个流程在 CARLA 模拟器中进行训练,并在未见过的场景中进行零样本测试。

关键创新:DDP 的关键创新在于将视觉基础模型和扩散模型相结合,构建了一个领域无关的自动泊车流程。与传统的端到端方法相比,DDP 能够更好地利用预训练模型的知识,从而提高模型的泛化能力。此外,DDP 的模块化设计使得模型更容易进行扩展和改进。

关键设计:DDP 使用 DINO 作为视觉特征提取器,并采用扩散概率模型(Diffusion Probabilistic Model, DPM)进行运动规划。DPM 的训练目标是学习从噪声到泊车轨迹的映射关系。在推理阶段,DPM 从噪声开始,逐步生成可行的泊车轨迹。通过调整 DPM 的参数,可以控制生成轨迹的多样性和质量。损失函数的设计也至关重要,需要平衡泊车成功率和轨迹的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DDP 在 CARLA 模拟器中进行了广泛的实验,并在各种分布外场景中取得了显著的成果。实验结果表明,DDP 在所有测试的 OOD 场景中始终达到 90% 以上的泊车成功率,显著优于现有基线。此外,在从真实停车场重建的 3DGS 环境中进行的测试也展示了 DDP 良好的 sim-to-real 迁移能力。

🎯 应用场景

该研究成果可应用于各种自动泊车场景,例如停车场、街道等。通过提高自动泊车的鲁棒性和泛化能力,可以减少人为错误,提高泊车效率,并降低事故风险。此外,该方法还可以扩展到其他自动驾驶任务,例如自动变道、自动导航等,具有广阔的应用前景。

📄 摘要(原文)

Parking is a critical pillar of driving safety. While recent end-to-end (E2E) approaches have achieved promising in-domain results, robustness under domain shifts (e.g., weather and lighting changes) remains a key challenge. Rather than relying on additional data, in this paper, we propose Dino-Diffusion Parking (DDP), a domain-agnostic autonomous parking pipeline that integrates visual foundation models with diffusion-based planning to enable generalized perception and robust motion planning under distribution shifts. We train our pipeline in CARLA at regular setting and transfer it to more adversarial settings in a zero-shot fashion. Our model consistently achieves a parking success rate above 90% across all tested out-of-distribution (OOD) scenarios, with ablation studies confirming that both the network architecture and algorithmic design significantly enhance cross-domain performance over existing baselines. Furthermore, testing in a 3D Gaussian splatting (3DGS) environment reconstructed from a real-world parking lot demonstrates promising sim-to-real transfer.