BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis
作者: David Svitov, Pietro Morerio, Lourdes Agapito, Alessio Del Bue
分类: cs.CV
发布日期: 2024-11-13 (更新: 2025-03-10)
💡 一句话要点
BBSplat:基于可学习纹理图元的 novel view synthesis 方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: Novel View Synthesis 高斯溅射 可学习纹理 平面图元 三维重建
📋 核心要点
- 现有 3D 高斯溅射方法在高质量 novel view synthesis 中表现出色,但难以提取精确的 3D 网格,且存储空间需求大。
- BBSplat 采用可学习纹理的平面图元表示场景,可作为高斯图元的替代,并引入稀疏正则化以实现高效压缩。
- 实验表明,BBSplat 在多个数据集上实现了 state-of-the-art 的 novel view synthesis 性能,并显著降低了存储空间。
📝 摘要(中文)
本文提出了一种名为 billboard Splatting (BBSplat) 的 novel view synthesis 新方法,该方法基于带纹理的几何图元。BBSplat 将场景表示为一组可优化的带纹理的平面图元,这些图元具有可学习的 RGB 纹理和 alpha-maps 以控制其形状。BBSplat 图元可以作为高斯图元的直接替代品,用于任何高斯 Splatting 流程中。所提出的图元缩小了 2D 和 3D 高斯 Splatting (GS) 之间的渲染质量差距,从而能够像在 2DGS 框架中一样精确地提取 3D 网格。此外,平面图元的显式性质使得能够在光栅化中使用光线追踪效果。我们新颖的正则化项鼓励纹理具有更稀疏的结构,从而实现高效的压缩,与 3DGS 相比,模型存储空间最多可减少 17 倍。我们的实验表明了 BBSplat 在真实室内和室外场景的标准数据集(如 Tanks&Temples、DTU 和 Mip-NeRF-360)上的效率。特别地,我们在全高清分辨率下,在 DTU 数据集上实现了 29.72 的 state-of-the-art PSNR。
🔬 方法详解
问题定义:论文旨在解决 novel view synthesis 中,现有 3D 高斯溅射方法难以提取精确 3D 网格,且模型存储空间大的问题。现有方法在渲染质量和模型大小之间存在trade-off,难以兼顾。
核心思路:论文的核心思路是使用可学习纹理的平面图元(billboard)来表示场景,替代传统的高斯图元。通过优化这些平面图元的纹理和形状,可以更精确地重建场景几何,并利用纹理的稀疏性进行高效压缩。这种方法旨在缩小 2D 和 3D 高斯溅射之间的差距,同时保持高质量的渲染效果。
技术框架:BBSplat 可以嵌入到任何高斯溅射的 pipeline 中。主要流程包括:1. 初始化一组平面图元,每个图元包含位置、旋转、缩放、纹理和 alpha 值等参数。2. 使用可微分渲染技术,将这些图元投影到目标视角,并计算渲染图像。3. 通过优化图元的参数,最小化渲染图像与真实图像之间的差异。4. 引入稀疏正则化项,鼓励纹理的稀疏性,从而实现模型压缩。
关键创新:最重要的技术创新点在于使用可学习纹理的平面图元来表示场景,并将其作为高斯图元的替代品。与传统的高斯图元相比,平面图元具有更强的几何表达能力,可以更精确地重建场景的表面。此外,可学习的纹理可以捕捉场景的细节信息,提高渲染质量。另一个创新点是引入了稀疏正则化项,鼓励纹理的稀疏性,从而实现高效的模型压缩。
关键设计:关键设计包括:1. 平面图元的初始化方法,例如使用场景的深度图或点云进行初始化。2. 纹理的参数化方式,例如使用 RGB 颜色和 alpha 值来表示纹理。3. 稀疏正则化项的选择,例如使用 L1 正则化或 total variation 正则化。4. 优化算法的选择,例如使用 Adam 优化器。
🖼️ 关键图片
📊 实验亮点
BBSplat 在 DTU 数据集上实现了 29.72 的 state-of-the-art PSNR,并在 Tanks&Temples 和 Mip-NeRF-360 数据集上取得了具有竞争力的结果。此外,BBSplat 实现了高达 17 倍的模型压缩,显著降低了存储空间需求,同时保持了高质量的渲染效果。
🎯 应用场景
BBSplat 在 novel view synthesis 领域具有广泛的应用前景,例如虚拟现实、增强现实、机器人导航、三维重建等。该方法可以用于生成高质量的虚拟场景,并支持从任意视角进行渲染。此外,BBSplat 的高效压缩特性使其适用于移动设备和嵌入式系统。
📄 摘要(原文)
We present billboard Splatting (BBSplat) - a novel approach for novel view synthesis based on textured geometric primitives. BBSplat represents the scene as a set of optimizable textured planar primitives with learnable RGB textures and alpha-maps to control their shape. BBSplat primitives can be used in any Gaussian Splatting pipeline as drop-in replacements for Gaussians. The proposed primitives close the rendering quality gap between 2D and 3D Gaussian Splatting (GS), enabling the accurate extraction of 3D mesh as in the 2DGS framework. Additionally, the explicit nature of planar primitives enables the use of the ray-tracing effects in rasterization. Our novel regularization term encourages textures to have a sparser structure, enabling an efficient compression that leads to a reduction in the storage space of the model up to x17 times compared to 3DGS. Our experiments show the efficiency of BBSplat on standard datasets of real indoor and outdoor scenes such as Tanks&Temples, DTU, and Mip-NeRF-360. Namely, we achieve a state-of-the-art PSNR of 29.72 for DTU at Full HD resolution.