Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

📄 arXiv: 2412.04459v3 📥 PDF

作者: Cheng Sun, Jaesung Choe, Charles Loop, Wei-Chiu Ma, Yu-Chiang Frank Wang

分类: cs.CV, cs.GR

发布日期: 2024-12-05 (更新: 2025-03-17)

备注: CVPR 2025; Project page at https://svraster.github.io/ ; Code at https://github.com/NVlabs/svraster


💡 一句话要点

提出基于自适应稀疏体素光栅化的实时高保真辐射场渲染方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 辐射场渲染 稀疏体素 光栅化 实时渲染 新视角合成

📋 核心要点

  1. 现有辐射场渲染方法在细节保留和渲染效率上存在挑战,尤其是在高分辨率场景中。
  2. 该方法通过自适应稀疏体素表示和定制光栅化器,在保证渲染质量的同时提升了渲染速度。
  3. 实验结果表明,该方法在PSNR指标上优于现有无神经体素模型,且帧率提升超过10倍。

📝 摘要(中文)

本文提出了一种高效的辐射场渲染算法,该算法在自适应稀疏体素上结合了光栅化过程,无需神经网络或3D高斯。该系统包含两个关键贡献。首先,自适应地将稀疏体素显式地分配到场景中不同细节层次,以$65536^3$的网格分辨率忠实地再现场景细节,同时实现高渲染帧率。其次,我们定制了一个光栅器,用于高效的自适应稀疏体素渲染。我们通过使用依赖于射线方向的Morton排序来按正确的深度顺序渲染体素,避免了高斯溅射中常见的弹出伪影。我们的方法比之前的无神经体素模型提高了超过4db的PSNR,并且速度提高了10倍以上,实现了具有竞争力的最先进的新视角合成结果。此外,我们的体素表示与基于网格的3D处理技术(如Volume Fusion、Voxel Pooling和Marching Cubes)无缝兼容,从而实现了广泛的未来扩展和应用。

🔬 方法详解

问题定义:现有的辐射场渲染方法,如基于神经辐射场(NeRF)的方法,计算量大,渲染速度慢。而传统的基于体素的方法,虽然速度较快,但在细节表现上有所欠缺,尤其是在高分辨率场景下。此外,高斯溅射方法虽然速度快,但存在弹出伪影的问题。

核心思路:本文的核心思路是利用自适应稀疏体素表示来高效地存储场景信息,并设计一个定制的光栅化器来快速渲染这些体素。通过自适应地分配体素到不同细节层次,可以在保证渲染质量的同时,减少计算量。使用射线方向相关的Morton排序来避免深度排序错误,从而消除弹出伪影。

技术框架:该方法主要包含两个阶段:体素表示构建和体素光栅化渲染。首先,根据场景的几何和外观信息,自适应地构建稀疏体素表示,不同区域的体素密度不同,细节丰富的区域体素密度高。然后,利用定制的光栅化器,按照射线方向相关的Morton排序,将体素投影到图像平面上,并进行颜色和透明度的合成。

关键创新:该方法最重要的创新点在于将自适应稀疏体素表示与定制光栅化器相结合,实现了实时高保真辐射场渲染。与现有方法相比,该方法无需神经网络,避免了训练过程,并且在渲染速度和质量上都取得了显著提升。此外,使用射线方向相关的Morton排序有效解决了高斯溅射中常见的弹出伪影问题。

关键设计:自适应体素分配策略是关键设计之一,它根据场景的局部特征(如梯度)来确定体素的密度。另一个关键设计是定制的光栅化器,它利用射线方向相关的Morton排序来保证正确的深度顺序,避免了深度冲突导致的伪影。具体的参数设置和损失函数(如果使用)在论文正文中会有更详细的描述,这里未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在PSNR指标上比之前的无神经体素模型提高了超过4dB,并且渲染速度提升了10倍以上。该方法在合成新视角图像方面达到了与最先进方法相当的水平,同时避免了神经网络训练的复杂性,更易于部署和应用。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、自动驾驶等领域。通过提供实时高保真的渲染效果,可以提升用户体验,并为相关应用带来更强的沉浸感和真实感。此外,该方法与现有3D处理技术的兼容性,也为未来的扩展和应用提供了更多可能性。

📄 摘要(原文)

We propose an efficient radiance field rendering algorithm that incorporates a rasterization process on adaptive sparse voxels without neural networks or 3D Gaussians. There are two key contributions coupled with the proposed system. The first is to adaptively and explicitly allocate sparse voxels to different levels of detail within scenes, faithfully reproducing scene details with $65536^3$ grid resolution while achieving high rendering frame rates. Second, we customize a rasterizer for efficient adaptive sparse voxels rendering. We render voxels in the correct depth order by using ray direction-dependent Morton ordering, which avoids the well-known popping artifact found in Gaussian splatting. Our method improves the previous neural-free voxel model by over 4db PSNR and more than 10x FPS speedup, achieving state-of-the-art comparable novel-view synthesis results. Additionally, our voxel representation is seamlessly compatible with grid-based 3D processing techniques such as Volume Fusion, Voxel Pooling, and Marching Cubes, enabling a wide range of future extensions and applications.