EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis

📄 arXiv: 2503.20168v1 📥 PDF

作者: Sheng Miao, Jiaxin Huang, Dongfeng Bai, Xu Yan, Hongyu Zhou, Yue Wang, Bingbing Liu, Andreas Geiger, Yiyi Liao

分类: cs.CV

发布日期: 2025-03-26

备注: CVPR2025


💡 一句话要点

EVolSplat:面向城市场景高效体素化高斯溅射新视角合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 3D高斯溅射 体素化 城市场景 自动驾驶 实时渲染 3D卷积网络

📋 核心要点

  1. 现有NeRF和3DGS方法在新视角合成中表现出色,但需要针对每个场景进行缓慢的优化。
  2. EVolSplat通过3D卷积网络在体素空间中预测3D高斯分布,避免了像素对齐方法的多视角不一致问题。
  3. 实验表明,EVolSplat在KITTI-360和Waymo数据集上实现了优于现有feed-forward方法的最先进性能,并支持实时渲染。

📝 摘要(中文)

本文提出EVolSplat,一种用于城市场景的新视角合成的高效3D高斯溅射模型,以feed-forward方式工作。与现有的feed-forward、像素对齐的3DGS方法不同,这些方法通常存在多视角不一致和内容重复等问题,我们的方法使用3D卷积网络在统一的体素空间中预测多个帧的3D高斯分布。这是通过用带噪声的深度预测初始化3D高斯分布,然后在3D空间中细化其几何属性并基于2D纹理预测颜色来实现的。我们的模型还使用灵活的半球背景模型处理远距离视角和天空。这使我们能够执行快速的feed-forward重建,同时实现实时渲染。在KITTI-360和Waymo数据集上的实验评估表明,与现有的基于feed-forward 3DGS和NeRF的方法相比,我们的方法实现了最先进的质量。

🔬 方法详解

问题定义:论文旨在解决城市场景下新视角合成问题。现有NeRF和3DGS方法虽然效果好,但需要逐场景优化,耗时较长。而feed-forward的3DGS方法,如像素对齐的方法,容易出现多视角不一致和内容重复的问题,影响合成质量。

核心思路:论文的核心思路是利用3D卷积网络在体素空间中直接预测3D高斯分布,从而避免像素对齐方法的问题。通过在3D空间中进行几何属性的细化和颜色预测,保证多视角一致性,并提升渲染质量。同时,引入半球背景模型处理远距离视角和天空,增强场景的完整性。

技术框架:EVolSplat的整体框架包括以下几个主要阶段:1) 使用带噪声的深度预测初始化3D高斯分布;2) 使用3D卷积网络在体素空间中细化3D高斯分布的几何属性(如位置、尺度、旋转);3) 基于2D纹理预测颜色;4) 使用半球背景模型处理远距离视角和天空;5) 渲染模块,将3D高斯分布投影到2D图像上,生成最终的新视角图像。

关键创新:最重要的技术创新点在于使用3D卷积网络在体素空间中直接预测3D高斯分布。与现有像素对齐的feed-forward 3DGS方法相比,EVolSplat避免了像素对齐带来的多视角不一致问题,提高了渲染质量和效率。此外,半球背景模型的引入也增强了场景的真实感。

关键设计:论文中关键的设计包括:1) 使用带噪声的深度预测作为3D高斯分布的初始化,加速了训练过程;2) 3D卷积网络的结构设计,用于在体素空间中有效地细化3D高斯分布的几何属性;3) 基于2D纹理的颜色预测方法,保证了颜色的一致性;4) 半球背景模型的参数化和渲染方法,使其能够灵活地处理远距离视角和天空。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EVolSplat在KITTI-360和Waymo数据集上取得了state-of-the-art的性能,显著优于现有的feed-forward 3DGS和NeRF方法。具体性能数据在论文中给出,表明EVolSplat在渲染质量和效率方面都具有显著优势。此外,EVolSplat能够实现实时渲染,使其在实际应用中更具竞争力。

🎯 应用场景

EVolSplat在自动驾驶、城市建模、虚拟现实等领域具有广泛的应用前景。它可以用于快速生成城市环境的新视角图像,为自动驾驶提供训练数据和仿真环境,加速算法的开发和验证。同时,也可以用于城市建模和虚拟现实,提供更真实、更沉浸式的用户体验。未来,EVolSplat可以进一步扩展到更复杂的场景,并与其他感知算法相结合,实现更智能化的应用。

📄 摘要(原文)

Novel view synthesis of urban scenes is essential for autonomous driving-related applications.Existing NeRF and 3DGS-based methods show promising results in achieving photorealistic renderings but require slow, per-scene optimization. We introduce EVolSplat, an efficient 3D Gaussian Splatting model for urban scenes that works in a feed-forward manner. Unlike existing feed-forward, pixel-aligned 3DGS methods, which often suffer from issues like multi-view inconsistencies and duplicated content, our approach predicts 3D Gaussians across multiple frames within a unified volume using a 3D convolutional network. This is achieved by initializing 3D Gaussians with noisy depth predictions, and then refining their geometric properties in 3D space and predicting color based on 2D textures. Our model also handles distant views and the sky with a flexible hemisphere background model. This enables us to perform fast, feed-forward reconstruction while achieving real-time rendering. Experimental evaluations on the KITTI-360 and Waymo datasets show that our method achieves state-of-the-art quality compared to existing feed-forward 3DGS- and NeRF-based methods.