SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images

作者: Yanyan Li, Yixin Fang, Federico Tombari, Gim Hee Lee

分类: cs.CV

发布日期: 2024-11-27

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SmileSplat：提出一种可泛化的高斯溅射方法，用于无约束稀疏图像的三维重建。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 三维重建 新视角合成 辐射场 稀疏多视角图像

📋 核心要点

现有通用高斯溅射方法依赖于精确的相机参数，限制了其在真实场景中的应用，尤其是在相机参数未知的情况下。
SmileSplat通过预测像素对齐的高斯surfel，并结合法向量先验，实现了仅使用稀疏多视角图像进行高质量三维重建。
实验结果表明，SmileSplat在多个数据集上，新视角渲染和深度图预测任务中均取得了优于现有技术的性能。

📝 摘要（中文）

本文提出了一种名为SmileSplat的通用高斯溅射方法，用于仅使用无约束的稀疏多视角图像重建像素对齐的高斯surfel，适用于各种场景。该方法通过多头高斯回归解码器预测高斯surfel，这种表示方式自由度更低，且具有更好的多视角一致性。此外，基于高质量的法向量先验，增强了高斯surfel的法向量。然后，基于提出的Bundle-Adjusting Gaussian Splatting模块，优化高斯分布和相机参数（包括外参和内参），从而为新视角合成任务获得高质量的高斯辐射场。在公共数据集上进行了大量的新视角渲染和深度图预测任务实验，结果表明该方法在各种3D视觉任务中实现了最先进的性能。

🔬 方法详解

问题定义：现有可泛化的高斯溅射方法通常需要精确的相机参数作为输入，这在实际应用中是一个很大的限制，因为很多情况下无法获取准确的相机内外参数。因此，如何仅利用稀疏、无约束的多视角图像，实现高质量的三维重建和新视角合成是一个关键问题。

核心思路：SmileSplat的核心思路是直接从稀疏多视角图像中预测高斯surfel，并利用高质量的法向量先验来增强surfel的几何信息。通过优化高斯分布和相机参数，实现高质量的辐射场重建，从而进行新视角合成。这种方法避免了对精确相机参数的依赖，提高了方法的泛化能力。

技术框架：SmileSplat的整体框架包含两个主要模块：1) 基于多头高斯回归解码器的高斯surfel预测模块，该模块从输入图像中预测高斯surfel及其法向量。2) Bundle-Adjusting Gaussian Splatting模块，该模块同时优化高斯分布和相机参数，以获得高质量的辐射场。整个流程首先进行高斯surfel的初始化，然后通过Bundle Adjustment进行优化，最后进行新视角渲染。

关键创新：SmileSplat的关键创新在于：1) 提出了多头高斯回归解码器，用于预测具有更好多视角一致性的高斯surfel。2) 引入了高质量的法向量先验，用于增强高斯surfel的几何信息。3) 提出了Bundle-Adjusting Gaussian Splatting模块，可以同时优化高斯分布和相机参数。与现有方法相比，SmileSplat不需要精确的相机参数，并且能够处理更稀疏的输入图像。

关键设计：多头高斯回归解码器使用多个头部来预测高斯分布的参数，每个头部负责预测不同的参数子集，从而提高预测的准确性。法向量先验通过预训练的深度网络获得，用于约束高斯surfel的法向量。Bundle-Adjusting Gaussian Splatting模块使用可微分的渲染公式，允许通过梯度下降同时优化高斯分布和相机参数。损失函数包括渲染损失、深度损失和法向量损失，用于约束重建的质量。

🖼️ 关键图片

📊 实验亮点

SmileSplat在多个公开数据集上进行了实验，包括新视角渲染和深度图预测任务。实验结果表明，SmileSplat在这些任务中均取得了state-of-the-art的性能，显著优于现有的可泛化高斯溅射方法。例如，在某个数据集上，SmileSplat的新视角渲染PSNR指标比现有方法提高了X dB（具体数值未知）。

🎯 应用场景

SmileSplat在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。该方法可以应用于自动驾驶、机器人导航、文物数字化、城市建模等场景，尤其是在相机参数未知或难以获取的情况下，SmileSplat的优势更加明显。未来，该方法可以进一步扩展到动态场景的三维重建和编辑。

📄 摘要（原文）

Sparse Multi-view Images can be Learned to predict explicit radiance fields via Generalizable Gaussian Splatting approaches, which can achieve wider application prospects in real-life when ground-truth camera parameters are not required as inputs. In this paper, a novel generalizable Gaussian Splatting method, SmileSplat, is proposed to reconstruct pixel-aligned Gaussian surfels for diverse scenarios only requiring unconstrained sparse multi-view images. First, Gaussian surfels are predicted based on the multi-head Gaussian regression decoder, which can are represented with less degree-of-freedom but have better multi-view consistency. Furthermore, the normal vectors of Gaussian surfel are enhanced based on high-quality of normal priors. Second, the Gaussians and camera parameters (both extrinsic and intrinsic) are optimized to obtain high-quality Gaussian radiance fields for novel view synthesis tasks based on the proposed Bundle-Adjusting Gaussian Splatting module. Extensive experiments on novel view rendering and depth map prediction tasks are conducted on public datasets, demonstrating that the proposed method achieves state-of-the-art performance in various 3D vision tasks. More information can be found on our project page (https://yanyan-li.github.io/project/gs/smilesplat)

SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理