VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

📄 arXiv: 2510.23205v1 📥 PDF

作者: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2025-10-27

备注: Accepted by NeurIPS2025


💡 一句话要点

VR-Drive:利用前馈3D高斯溅射实现视角鲁棒的端到端自动驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 端到端自动驾驶 视角鲁棒性 3D高斯溅射 视图合成 深度学习

📋 核心要点

  1. 现有端到端自动驾驶方法在面对不同相机视角时鲁棒性不足,这是由于车辆配置多样性导致的常见问题。
  2. VR-Drive通过联合学习3D场景重建和规划感知的视图合成,实现视角泛化,提升了模型在不同视角下的性能。
  3. 该方法采用前馈推理策略,支持在线训练时增强,并引入视角混合记忆库和视角一致性蒸馏策略,提升性能。

📝 摘要(中文)

端到端自动驾驶(E2E-AD)已成为一种有前景的范例,它将感知、预测和规划统一到一个整体的、数据驱动的框架中。然而,由于车辆配置的多样性,实现对不同相机视角的鲁棒性,这是一个常见的现实挑战,仍然是一个开放的问题。本文提出了VR-Drive,一种新颖的E2E-AD框架,通过联合学习3D场景重建作为辅助任务来实现规划感知的视图合成,从而解决视角泛化问题。与以往特定于场景的合成方法不同,VR-Drive采用前馈推理策略,支持来自稀疏视角的在线训练时增强,而无需额外的注释。为了进一步提高视角一致性,我们引入了一个视角混合的记忆库,以促进跨多个视角的时序交互,以及一种视角一致的蒸馏策略,将知识从原始视图转移到合成视图。VR-Drive以完全端到端的方式进行训练,有效地减轻了合成引起的噪声,并改善了视角变化下的规划。此外,我们发布了一个新的基准数据集,以评估E2E-AD在新的相机视角下的性能,从而实现全面的分析。我们的结果表明,VR-Drive是端到端自动驾驶系统在现实世界中部署的可扩展且鲁棒的解决方案。

🔬 方法详解

问题定义:论文旨在解决端到端自动驾驶系统中,由于相机视角变化导致的性能下降问题。现有方法难以适应不同车辆配置带来的视角差异,导致感知、预测和规划模块的性能受到影响。现有方法通常是场景特定的,泛化能力有限。

核心思路:论文的核心思路是利用3D高斯溅射进行场景重建,并将其作为辅助任务来提升端到端自动驾驶模型的视角鲁棒性。通过学习从不同视角合成新的视图,模型可以更好地理解场景的3D结构,从而提高在不同视角下的规划能力。

技术框架:VR-Drive框架包含以下主要模块:1) 3D场景重建模块,使用前馈3D高斯溅射从输入图像中重建场景。2) 视图合成模块,根据给定的目标视角,从重建的3D场景中合成新的视图。3) 端到端自动驾驶模块,接收原始视图和合成视图作为输入,输出车辆的控制指令。4) 视角混合记忆库,用于存储不同视角的特征表示,促进跨视角的时序交互。

关键创新:该论文的关键创新在于:1) 提出了一种基于前馈3D高斯溅射的视角鲁棒端到端自动驾驶框架。2) 引入了视角混合记忆库和视角一致性蒸馏策略,进一步提升了视角一致性。3) 发布了一个新的基准数据集,用于评估端到端自动驾驶系统在新的相机视角下的性能。

关键设计:1) 使用3D高斯溅射进行场景重建,能够有效地表示场景的3D结构。2) 视角混合记忆库通过存储不同视角的特征表示,促进了跨视角的时序交互。3) 视角一致性蒸馏策略通过将知识从原始视图转移到合成视图,提高了合成视图的质量。4) 损失函数包括重建损失、规划损失和蒸馏损失,用于优化整个框架。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VR-Drive在新的基准数据集上取得了显著的性能提升,证明了其在视角泛化方面的有效性。具体数据未知,但论文强调该方法减轻了合成噪声并改善了视角变化下的规划。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在需要处理不同车辆配置和相机视角的场景中,例如自动驾驶出租车、自动驾驶物流车等。该方法可以提高自动驾驶系统在复杂环境下的安全性和可靠性,加速自动驾驶技术的商业化落地。

📄 摘要(原文)

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.