Dino-Diffusion Modular Designs Bridge the Cross-Domain Gap in Autonomous Parking

作者: Zixuan Wu, Hengyuan Zhang, Ting-Hsuan Chen, Yuliang Guo, David Paz, Xinyu Huang, Liu Ren

分类: cs.RO, cs.CV

发布日期: 2025-10-23

备注: Code is at https://github.com/ChampagneAndfragrance/Dino_Diffusion_Parking_Official

💡 一句话要点

Dino-Diffusion Parking：模块化设计弥合自动泊车跨域差距

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动泊车 领域泛化 视觉基础模型 扩散模型 运动规划 零样本学习 跨域适应

📋 核心要点

现有端到端自动泊车方法在特定领域表现良好，但在面对天气、光照等领域偏移时，鲁棒性不足。
Dino-Diffusion Parking (DDP) 结合视觉基础模型和扩散模型，实现领域无关的感知和鲁棒的运动规划。
实验表明，DDP 在各种分布外场景中泊车成功率超过 90%，并在 sim-to-real 迁移中表现出潜力。

📝 摘要（中文）

泊车是驾驶安全的关键支柱。虽然最近的端到端(E2E)方法在领域内取得了可喜的成果，但在领域偏移(如天气和光照变化)下的鲁棒性仍然是一个关键挑战。本文提出Dino-Diffusion Parking (DDP)，一种领域无关的自动泊车流程，它将视觉基础模型与基于扩散的规划相结合，以实现广义感知和在分布偏移下鲁棒的运动规划，而不是依赖于额外的数据。我们在CARLA中以常规设置训练我们的流程，并以零样本方式将其转移到更具对抗性的设置中。我们的模型在所有测试的分布外(OOD)场景中始终达到90%以上的泊车成功率，消融研究证实，网络架构和算法设计都显著提高了现有基线在跨域性能方面的表现。此外，在从真实停车场重建的3D高斯溅射(3DGS)环境中进行的测试也展示了有希望的sim-to-real迁移。

🔬 方法详解

问题定义：现有端到端自动泊车方法在特定领域表现良好，但当环境发生变化（例如，天气、光照条件变化）时，性能会显著下降。这种领域泛化能力不足是实际应用中的一个主要痛点。现有方法通常依赖于大量特定领域的数据进行训练，难以适应未见过的场景。

核心思路：DDP的核心思路是利用视觉基础模型（DINO）的强大特征提取能力和扩散模型的生成能力，将感知和规划解耦，从而提高模型的领域泛化能力。DINO 负责提取场景的鲁棒特征，扩散模型则基于这些特征生成可行的泊车轨迹。这种模块化设计使得模型能够更好地适应不同的环境条件。

技术框架：DDP 包含两个主要模块：感知模块和规划模块。感知模块使用 DINO 模型提取环境的视觉特征。规划模块是一个基于扩散模型的运动规划器，它以 DINO 提取的特征作为条件，生成一系列可能的泊车轨迹。然后，选择最优的轨迹执行泊车动作。整个流程在 CARLA 模拟器中进行训练，并在未见过的场景中进行零样本测试。

关键创新：DDP 的关键创新在于将视觉基础模型和扩散模型相结合，构建了一个领域无关的自动泊车流程。与传统的端到端方法相比，DDP 能够更好地利用预训练模型的知识，从而提高模型的泛化能力。此外，DDP 的模块化设计使得模型更容易进行扩展和改进。

关键设计：DDP 使用 DINO 作为视觉特征提取器，并采用扩散概率模型（Diffusion Probabilistic Model, DPM）进行运动规划。DPM 的训练目标是学习从噪声到泊车轨迹的映射关系。在推理阶段，DPM 从噪声开始，逐步生成可行的泊车轨迹。通过调整 DPM 的参数，可以控制生成轨迹的多样性和质量。损失函数的设计也至关重要，需要平衡泊车成功率和轨迹的平滑性。

🖼️ 关键图片

📊 实验亮点

DDP 在 CARLA 模拟器中进行了广泛的实验，并在各种分布外场景中取得了显著的成果。实验结果表明，DDP 在所有测试的 OOD 场景中始终达到 90% 以上的泊车成功率，显著优于现有基线。此外，在从真实停车场重建的 3DGS 环境中进行的测试也展示了 DDP 良好的 sim-to-real 迁移能力。

🎯 应用场景

该研究成果可应用于各种自动泊车场景，例如停车场、街道等。通过提高自动泊车的鲁棒性和泛化能力，可以减少人为错误，提高泊车效率，并降低事故风险。此外，该方法还可以扩展到其他自动驾驶任务，例如自动变道、自动导航等，具有广阔的应用前景。

📄 摘要（原文）

Parking is a critical pillar of driving safety. While recent end-to-end (E2E) approaches have achieved promising in-domain results, robustness under domain shifts (e.g., weather and lighting changes) remains a key challenge. Rather than relying on additional data, in this paper, we propose Dino-Diffusion Parking (DDP), a domain-agnostic autonomous parking pipeline that integrates visual foundation models with diffusion-based planning to enable generalized perception and robust motion planning under distribution shifts. We train our pipeline in CARLA at regular setting and transfer it to more adversarial settings in a zero-shot fashion. Our model consistently achieves a parking success rate above 90% across all tested out-of-distribution (OOD) scenarios, with ablation studies confirming that both the network architecture and algorithmic design significantly enhance cross-domain performance over existing baselines. Furthermore, testing in a 3D Gaussian splatting (3DGS) environment reconstructed from a real-world parking lot demonstrates promising sim-to-real transfer.

Dino-Diffusion Modular Designs Bridge the Cross-Domain Gap in Autonomous Parking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理