VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

📄 arXiv: 2510.23205v1 📥 PDF

作者: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2025-10-27

备注: Accepted by NeurIPS2025


💡 一句话要点

VR-Drive:利用前馈3D高斯溅射实现视角鲁棒的端到端自动驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 端到端自动驾驶 视角泛化 3D高斯溅射 视图合成 领域自适应

📋 核心要点

  1. 现有端到端自动驾驶方法在不同相机视角下的泛化能力不足,难以适应真实世界中车辆配置的多样性。
  2. VR-Drive通过联合学习3D场景重建和规划感知的视图合成,实现视角泛化,无需额外标注即可进行在线训练时增强。
  3. 实验结果表明,VR-Drive能有效减轻合成噪声,提高视角变化下的规划性能,并在新基准数据集上进行了全面评估。

📝 摘要(中文)

端到端自动驾驶(E2E-AD)已成为一种有前景的范例,它将感知、预测和规划统一到一个整体的、数据驱动的框架中。然而,由于车辆配置的多样性,实现对不同相机视角的鲁棒性仍然是一个开放的问题。本文提出了VR-Drive,一种新颖的E2E-AD框架,通过联合学习3D场景重建作为辅助任务来实现视角泛化,从而实现规划感知的视图合成。与以往特定于场景的合成方法不同,VR-Drive采用前馈推理策略,支持来自稀疏视角的在线训练时增强,而无需额外的注释。为了进一步提高视角一致性,我们引入了一个视角混合的记忆库,以促进跨多个视角的时序交互,以及一种视角一致的蒸馏策略,将知识从原始视图转移到合成视图。VR-Drive以完全端到端的方式进行训练,有效地减轻了合成引起的噪声,并提高了视角变化下的规划能力。此外,我们发布了一个新的基准数据集,用于评估E2E-AD在新的相机视角下的性能,从而实现全面的分析。结果表明,VR-Drive是端到端自动驾驶系统实际部署的可扩展且鲁棒的解决方案。

🔬 方法详解

问题定义:论文旨在解决端到端自动驾驶系统中,由于相机视角变化导致的性能下降问题。现有方法难以泛化到新的视角,限制了其在真实世界中的部署。痛点在于缺乏有效的视角不变性学习机制,以及对合成视图噪声的鲁棒性。

核心思路:核心思路是利用3D高斯溅射进行场景重建,并将其作为辅助任务来提升端到端自动驾驶模型的视角泛化能力。通过学习场景的3D表示,模型可以合成任意视角的图像,从而在训练阶段增强数据的多样性,提高模型对视角变化的鲁棒性。

技术框架:VR-Drive框架包含以下主要模块:1) 3D高斯溅射模块,用于从原始图像重建3D场景;2) 视图合成模块,用于从重建的3D场景中合成新的视角图像;3) 端到端自动驾驶模块,用于根据原始图像和合成图像进行规划。此外,还包括一个视角混合的记忆库和一个视角一致的蒸馏策略。

关键创新:主要创新点在于:1) 提出了一种前馈的3D高斯溅射方法,可以进行在线训练时增强,无需额外标注;2) 引入了视角混合的记忆库,用于促进跨多个视角的时序交互;3) 提出了一种视角一致的蒸馏策略,用于将知识从原始视图转移到合成视图。

关键设计:视角混合记忆库的设计允许模型学习不同视角下的场景表示,从而提高视角一致性。视角一致性蒸馏策略通过最小化原始视图和合成视图之间的特征差异,来减少合成噪声的影响。损失函数包括重建损失、规划损失和蒸馏损失。网络结构细节未明确给出,但强调了端到端的训练方式。

📊 实验亮点

论文提出了一个新的基准数据集,用于评估端到端自动驾驶在新的相机视角下的性能。实验结果表明,VR-Drive在视角泛化方面取得了显著的提升,能够有效地减轻合成引起的噪声,并提高视角变化下的规划能力。具体的性能数据和对比基线未在摘要中明确给出,需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在需要适应不同车辆配置和相机视角的场景中,例如自动驾驶出租车、物流配送车辆等。通过提高视角鲁棒性,可以降低对传感器标定的精度要求,并提高自动驾驶系统的安全性和可靠性。未来,该方法可以扩展到其他需要视角泛化的机器人应用中。

📄 摘要(原文)

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.