Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty
作者: Saining Zhang, Baijun Ye, Xiaoxue Chen, Yuantao Chen, Zongzheng Zhang, Cheng Peng, Yongliang Shi, Hao Zhao
分类: cs.CV
发布日期: 2024-08-27
备注: BMVC2024 Project Page: https://sainingzhang.github.io/project/uc-gs/ Code: https://github.com/SainingZhang/uc-gs/
💡 一句话要点
提出基于跨视角不确定性的无人机辅助道路场景高斯溅射方法,提升道路视角渲染质量。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 神经渲染 跨视角学习 不确定性建模 无人机辅助 道路场景 新视角合成
📋 核心要点
- 现有3D高斯溅射方法在处理大规模道路场景时,受限于地面视角的图像视野狭窄,导致渲染质量不高。
- 该论文提出了一种基于跨视角不确定性的训练方法,利用无人机视角图像辅助地面图像学习效果不佳的区域。
- 通过引入跨视角不确定性,并构建高质量的合成数据集,有效提升了道路视角的新视角合成质量。
📝 摘要(中文)
大规模道路场景的鲁棒且逼真的渲染在自动驾驶模拟中至关重要。最近,3D高斯溅射(3D-GS)在神经渲染方面取得了突破性进展,但大规模道路场景渲染的通用保真度通常受到输入图像的限制,这些图像通常具有狭窄的视野并且主要集中在街道级别的局部区域。来自无人机视角的数据可以为来自地面车辆视角的数据提供补充视角,从而增强场景重建和渲染的完整性。然而,直接使用具有大视角差异的航拍和地面图像进行训练,给3D-GS带来了巨大的收敛挑战,并且在道路视角的性能方面没有表现出显著的改进。为了增强道路视角的新视角合成并有效地利用航拍信息,我们设计了一种不确定性感知训练方法,该方法允许航拍图像辅助合成地面图像学习效果不佳的区域,而不是像先前的工作那样在3D-GS训练中同等加权所有像素。我们首次将跨视角不确定性引入3D-GS,通过将车辆视角的基于集成渲染的不确定性与航拍图像匹配,从而加权每个像素对训练过程的贡献。此外,为了系统地量化评估指标,我们组装了一个高质量的合成数据集,其中包含道路场景的航拍和地面图像。
🔬 方法详解
问题定义:论文旨在解决大规模道路场景下,由于地面视角图像信息不足,导致3D高斯溅射渲染质量不高的问题。现有方法直接融合无人机和地面图像进行训练,忽略了视角差异带来的挑战,导致收敛困难,且性能提升不明显。
核心思路:核心思路是利用无人机视角图像来辅助地面图像的学习,但不是简单地加权融合,而是通过引入跨视角不确定性,让无人机图像更多地关注地面图像学习效果不佳的区域。这样可以更有效地利用无人机图像的信息,同时避免视角差异带来的负面影响。
技术框架:整体框架包含以下几个主要步骤:1) 使用地面和无人机图像进行数据采集;2) 利用地面图像进行初始的3D高斯溅射训练;3) 基于地面视角的集成渲染计算不确定性;4) 将地面视角的不确定性与无人机图像进行匹配,得到无人机图像的权重;5) 使用加权的无人机图像和地面图像进行联合训练,优化3D高斯溅射模型。
关键创新:最重要的创新点在于引入了跨视角不确定性,并将其用于指导无人机图像的训练。通过匹配车辆视角的基于集成渲染的不确定性与航拍图像,从而加权每个像素对训练过程的贡献。这使得无人机图像能够更有效地辅助地面图像的学习,从而提升渲染质量。
关键设计:关键设计包括:1) 使用集成渲染来估计地面视角的不确定性,具体方法未知;2) 设计了一种将地面视角不确定性映射到无人机图像的权重的方法,具体方法未知;3) 使用加权的无人机图像和地面图像进行联合训练,损失函数的设计未知,可能包含渲染损失和正则化项。
🖼️ 关键图片
📊 实验亮点
论文构建了一个高质量的合成数据集,包含无人机和地面图像,为道路场景渲染提供了基准。实验结果表明,该方法能够有效提升道路视角的新视角合成质量,但具体的性能数据和提升幅度未知。与现有方法相比,该方法在收敛性和渲染质量方面都有所提升。
🎯 应用场景
该研究成果可应用于自动驾驶仿真、虚拟现实、城市建模等领域。通过提升道路场景的渲染质量,可以为自动驾驶算法的开发和测试提供更逼真的环境,加速自动驾驶技术的落地。同时,也可以为城市规划和虚拟旅游等应用提供更优质的视觉体验。
📄 摘要(原文)
Robust and realistic rendering for large-scale road scenes is essential in autonomous driving simulation. Recently, 3D Gaussian Splatting (3D-GS) has made groundbreaking progress in neural rendering, but the general fidelity of large-scale road scene renderings is often limited by the input imagery, which usually has a narrow field of view and focuses mainly on the street-level local area. Intuitively, the data from the drone's perspective can provide a complementary viewpoint for the data from the ground vehicle's perspective, enhancing the completeness of scene reconstruction and rendering. However, training naively with aerial and ground images, which exhibit large view disparity, poses a significant convergence challenge for 3D-GS, and does not demonstrate remarkable improvements in performance on road views. In order to enhance the novel view synthesis of road views and to effectively use the aerial information, we design an uncertainty-aware training method that allows aerial images to assist in the synthesis of areas where ground images have poor learning outcomes instead of weighting all pixels equally in 3D-GS training like prior work did. We are the first to introduce the cross-view uncertainty to 3D-GS by matching the car-view ensemble-based rendering uncertainty to aerial images, weighting the contribution of each pixel to the training process. Additionally, to systematically quantify evaluation metrics, we assemble a high-quality synthesized dataset comprising both aerial and ground images for road scenes.