Extrapolated Urban View Synthesis Benchmark
作者: Xiangyu Han, Zhen Jia, Boyi Li, Yan Wang, Boris Ivanovic, Yurong You, Lingjie Liu, Yue Wang, Marco Pavone, Chen Feng, Yiming Li
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2024-12-06 (更新: 2025-03-12)
备注: Project page: https://ai4ce.github.io/EUVS-Benchmark/
💡 一句话要点
提出EUVS基准,用于评估城市场景下外推视角合成算法的泛化能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 自动驾驶 城市环境 外推泛化 基准数据集
📋 核心要点
- 现有新视角合成方法在训练和测试视角差异较大时泛化能力不足,限制了自动驾驶模拟技术的进步。
- 论文构建了首个外推城市视角合成(EUVS)基准,利用多车、多视角数据评估算法在外推场景下的性能。
- 实验表明,现有方法容易过拟合训练数据,且改进几何或引入扩散先验无法根本解决外推问题。
📝 摘要(中文)
逼真的模拟器对于训练和评估以视觉为中心的自动驾驶车辆至关重要。其核心是新视角合成(NVS),这是一项关键能力,可以生成各种未见过的视角,以适应自动驾驶车辆广泛而连续的姿态分布。最近在辐射场方面的进展,如3D高斯溅射,实现了实时的逼真渲染,并已广泛应用于建模大规模驾驶场景。然而,它们的性能通常使用内插设置进行评估,训练和测试视图高度相关。相比之下,外推(即测试视图与训练视图差异很大)仍然未被充分探索,限制了通用模拟技术的进步。为了解决这一差距,我们利用公开的自动驾驶数据集,包含多次遍历、多辆车和多个摄像头,构建了第一个外推城市视角合成(EUVS)基准。同时,我们对最先进的NVS方法在不同的评估设置下进行了定量和定性评估。结果表明,当前的NVS方法容易过度拟合训练视图。此外,结合扩散先验和改进几何结构并不能从根本上改善大视角变化下的NVS,突出了对更鲁棒的方法和大规模训练的需求。我们将发布数据,以帮助推进自动驾驶和城市机器人模拟技术。
🔬 方法详解
问题定义:论文旨在解决现有新视角合成(NVS)方法在城市场景下,当测试视角与训练视角差异较大时,即外推场景下的泛化能力不足的问题。现有方法通常在内插设置下评估,训练和测试数据高度相关,无法真实反映自动驾驶车辆在实际应用中遇到的复杂视角变化。因此,需要一个更具挑战性的基准来评估和推动NVS算法的进步。
核心思路:论文的核心思路是构建一个更具挑战性的外推城市视角合成(EUVS)基准,该基准包含多个车辆、多个摄像头和多次城市环境遍历的数据,从而能够评估NVS算法在训练视角之外的泛化能力。通过在该基准上评估现有方法,可以揭示其在外推场景下的不足,并为未来的研究方向提供指导。
技术框架:论文主要贡献在于数据集的构建和实验评估。数据集构建流程包括数据收集、清洗、对齐和划分。实验评估部分,选择了多个state-of-the-art的NVS方法,并在EUVS基准上进行定量和定性评估。评估指标包括常用的PSNR、SSIM和LPIPS等。
关键创新:论文的关键创新在于提出了EUVS基准,该基准专门设计用于评估NVS算法在外推场景下的性能。与以往的内插基准相比,EUVS基准更具挑战性,能够更真实地反映自动驾驶车辆在实际应用中遇到的视角变化。此外,论文还对现有NVS方法进行了全面的评估,揭示了其在外推场景下的不足。
关键设计:EUVS基准的关键设计在于其数据的多样性和视角变化范围。数据集包含了多个车辆、多个摄像头和多次城市环境遍历的数据,从而能够覆盖更广泛的视角变化。此外,数据集还被划分为训练集、验证集和测试集,其中测试集包含与训练集差异较大的视角,用于评估算法的外推能力。论文还仔细选择了评估指标,以全面评估NVS算法的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有NVS方法在EUVS基准上表现不佳,容易过拟合训练数据。即使结合扩散先验或改进几何结构,也无法显著提升外推性能。例如,在某些场景下,PSNR下降幅度超过5dB,表明现有方法在处理大视角变化时存在明显不足。这些结果突出了开发更鲁棒的NVS算法的必要性。
🎯 应用场景
该研究成果可直接应用于自动驾驶车辆的模拟训练和测试,提高自动驾驶系统的安全性和可靠性。此外,该基准也可用于城市机器人、增强现实等领域,促进相关技术的发展和应用。未来,更鲁棒的新视角合成算法将提升自动驾驶的感知能力。
📄 摘要(原文)
Photorealistic simulators are essential for the training and evaluation of vision-centric autonomous vehicles (AVs). At their core is Novel View Synthesis (NVS), a crucial capability that generates diverse unseen viewpoints to accommodate the broad and continuous pose distribution of AVs. Recent advances in radiance fields, such as 3D Gaussian Splatting, achieve photorealistic rendering at real-time speeds and have been widely used in modeling large-scale driving scenes. However, their performance is commonly evaluated using an interpolated setup with highly correlated training and test views. In contrast, extrapolation, where test views largely deviate from training views, remains underexplored, limiting progress in generalizable simulation technology. To address this gap, we leverage publicly available AV datasets with multiple traversals, multiple vehicles, and multiple cameras to build the first Extrapolated Urban View Synthesis (EUVS) benchmark. Meanwhile, we conduct both quantitative and qualitative evaluations of state-of-the-art NVS methods across different evaluation settings. Our results show that current NVS methods are prone to overfitting to training views. Besides, incorporating diffusion priors and improving geometry cannot fundamentally improve NVS under large view changes, highlighting the need for more robust approaches and large-scale training. We will release the data to help advance self-driving and urban robotics simulation technology.