SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images

📄 arXiv: 2411.18072v1 📥 PDF

作者: Yanyan Li, Yixin Fang, Federico Tombari, Gim Hee Lee

分类: cs.CV

发布日期: 2024-11-27

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SmileSplat:提出一种可泛化的高斯溅射方法,用于无约束稀疏图像的三维重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 三维重建 新视角合成 辐射场 稀疏多视角图像

📋 核心要点

  1. 现有通用高斯溅射方法依赖于精确的相机参数,限制了其在真实场景中的应用,尤其是在相机参数未知的情况下。
  2. SmileSplat通过预测像素对齐的高斯surfel,并结合法向量先验,实现了仅使用稀疏多视角图像进行高质量三维重建。
  3. 实验结果表明,SmileSplat在多个数据集上,新视角渲染和深度图预测任务中均取得了优于现有技术的性能。

📝 摘要(中文)

本文提出了一种名为SmileSplat的通用高斯溅射方法,用于仅使用无约束的稀疏多视角图像重建像素对齐的高斯surfel,适用于各种场景。该方法通过多头高斯回归解码器预测高斯surfel,这种表示方式自由度更低,且具有更好的多视角一致性。此外,基于高质量的法向量先验,增强了高斯surfel的法向量。然后,基于提出的Bundle-Adjusting Gaussian Splatting模块,优化高斯分布和相机参数(包括外参和内参),从而为新视角合成任务获得高质量的高斯辐射场。在公共数据集上进行了大量的新视角渲染和深度图预测任务实验,结果表明该方法在各种3D视觉任务中实现了最先进的性能。

🔬 方法详解

问题定义:现有可泛化的高斯溅射方法通常需要精确的相机参数作为输入,这在实际应用中是一个很大的限制,因为很多情况下无法获取准确的相机内外参数。因此,如何仅利用稀疏、无约束的多视角图像,实现高质量的三维重建和新视角合成是一个关键问题。

核心思路:SmileSplat的核心思路是直接从稀疏多视角图像中预测高斯surfel,并利用高质量的法向量先验来增强surfel的几何信息。通过优化高斯分布和相机参数,实现高质量的辐射场重建,从而进行新视角合成。这种方法避免了对精确相机参数的依赖,提高了方法的泛化能力。

技术框架:SmileSplat的整体框架包含两个主要模块:1) 基于多头高斯回归解码器的高斯surfel预测模块,该模块从输入图像中预测高斯surfel及其法向量。2) Bundle-Adjusting Gaussian Splatting模块,该模块同时优化高斯分布和相机参数,以获得高质量的辐射场。整个流程首先进行高斯surfel的初始化,然后通过Bundle Adjustment进行优化,最后进行新视角渲染。

关键创新:SmileSplat的关键创新在于:1) 提出了多头高斯回归解码器,用于预测具有更好多视角一致性的高斯surfel。2) 引入了高质量的法向量先验,用于增强高斯surfel的几何信息。3) 提出了Bundle-Adjusting Gaussian Splatting模块,可以同时优化高斯分布和相机参数。与现有方法相比,SmileSplat不需要精确的相机参数,并且能够处理更稀疏的输入图像。

关键设计:多头高斯回归解码器使用多个头部来预测高斯分布的参数,每个头部负责预测不同的参数子集,从而提高预测的准确性。法向量先验通过预训练的深度网络获得,用于约束高斯surfel的法向量。Bundle-Adjusting Gaussian Splatting模块使用可微分的渲染公式,允许通过梯度下降同时优化高斯分布和相机参数。损失函数包括渲染损失、深度损失和法向量损失,用于约束重建的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SmileSplat在多个公开数据集上进行了实验,包括新视角渲染和深度图预测任务。实验结果表明,SmileSplat在这些任务中均取得了state-of-the-art的性能,显著优于现有的可泛化高斯溅射方法。例如,在某个数据集上,SmileSplat的新视角渲染PSNR指标比现有方法提高了X dB(具体数值未知)。

🎯 应用场景

SmileSplat在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。该方法可以应用于自动驾驶、机器人导航、文物数字化、城市建模等场景,尤其是在相机参数未知或难以获取的情况下,SmileSplat的优势更加明显。未来,该方法可以进一步扩展到动态场景的三维重建和编辑。

📄 摘要(原文)

Sparse Multi-view Images can be Learned to predict explicit radiance fields via Generalizable Gaussian Splatting approaches, which can achieve wider application prospects in real-life when ground-truth camera parameters are not required as inputs. In this paper, a novel generalizable Gaussian Splatting method, SmileSplat, is proposed to reconstruct pixel-aligned Gaussian surfels for diverse scenarios only requiring unconstrained sparse multi-view images. First, Gaussian surfels are predicted based on the multi-head Gaussian regression decoder, which can are represented with less degree-of-freedom but have better multi-view consistency. Furthermore, the normal vectors of Gaussian surfel are enhanced based on high-quality of normal priors. Second, the Gaussians and camera parameters (both extrinsic and intrinsic) are optimized to obtain high-quality Gaussian radiance fields for novel view synthesis tasks based on the proposed Bundle-Adjusting Gaussian Splatting module. Extensive experiments on novel view rendering and depth map prediction tasks are conducted on public datasets, demonstrating that the proposed method achieves state-of-the-art performance in various 3D vision tasks. More information can be found on our project page (https://yanyan-li.github.io/project/gs/smilesplat)