Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction

作者: Youming Deng, Wenqi Xian, Guandao Yang, Leonidas Guibas, Gordon Wetzstein, Steve Marschner, Paul Debevec

分类: cs.CV, cs.GR

发布日期: 2025-02-13 (更新: 2025-04-03)

备注: Project Page: https://denghilbert.github.io/self-cali/

💡 一句话要点

提出自校准高斯溅射方法，用于大视场重建，提升相机参数和镜头畸变优化。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 自校准 大视场重建 镜头畸变校正 可逆残差网络 三维重建 相机参数估计

📋 核心要点

现有方法在处理大视场图像时，相机参数和镜头畸变的精确估计面临挑战，影响重建质量。
论文提出自校准框架，联合优化相机参数、镜头畸变和3D高斯表示，提升重建精度和效率。
实验结果表明，该方法在合成和真实数据集上均取得了优异的性能，优于现有技术。

📝 摘要（中文）

本文提出了一种自校准框架，该框架联合优化相机参数、镜头畸变和3D高斯表示，从而实现精确而高效的场景重建。特别地，我们的技术能够从使用广角镜头拍摄的大视场（FOV）图像中实现高质量的场景重建，从而允许从更少数量的图像中对场景进行建模。我们的方法引入了一种新颖的方法，使用混合网络（将可逆残差网络与显式网格相结合）来建模复杂的镜头畸变。这种设计有效地正则化了优化过程，实现了比传统相机模型更高的精度。此外，我们提出了一种基于立方体贴图的重采样策略，以支持大的FOV图像，而不会牺牲分辨率或引入畸变伪影。我们的方法与高斯溅射的快速光栅化兼容，适用于各种相机镜头畸变，并在合成和真实世界数据集上展示了最先进的性能。

🔬 方法详解

问题定义：现有的大视场场景重建方法通常难以准确估计相机参数和镜头畸变，尤其是在使用广角镜头时，这会导致重建结果出现明显的几何失真和伪影。传统相机模型难以充分表达复杂的镜头畸变，限制了重建质量。

核心思路：论文的核心思路是通过联合优化相机参数、镜头畸变和3D高斯表示，实现自校准。通过将镜头畸变建模融入到高斯溅射的优化过程中，可以更准确地估计相机参数，并减少对初始相机姿态的依赖。混合网络的设计能够有效地正则化镜头畸变的优化，避免过拟合。

技术框架：该方法主要包含以下几个阶段：1）图像采集：使用带有广角镜头的相机拍摄场景图像。2）初始化：初始化相机参数和3D高斯表示。3）联合优化：使用混合网络建模镜头畸变，并与相机参数和3D高斯表示一起进行优化。4）渲染：使用优化后的参数和高斯表示渲染重建结果。5）基于立方体贴图的重采样：为了处理大视场图像，采用基于立方体贴图的重采样策略，避免分辨率损失和畸变。

关键创新：该方法最重要的技术创新点在于使用混合网络建模镜头畸变。该混合网络结合了可逆残差网络和显式网格，能够更灵活、更准确地表达复杂的镜头畸变。与传统的相机模型相比，该方法能够更好地正则化优化过程，避免过拟合，从而提高相机参数和镜头畸变的估计精度。

关键设计：混合网络由可逆残差网络和显式网格组成。可逆残差网络用于学习镜头畸变的非线性部分，而显式网格用于建模畸变的线性部分。损失函数包括重建损失和正则化项，用于约束相机参数和镜头畸变的优化。基于立方体贴图的重采样策略将图像投影到立方体贴图上，然后进行渲染，从而避免了在大视场图像中出现分辨率损失和畸变伪影。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在合成和真实数据集上均取得了最先进的性能。在合成数据集上，该方法能够准确地估计相机参数和镜头畸变，并重建出高质量的三维场景。在真实数据集上，该方法也能够有效地处理大视场图像，并重建出具有高保真度的三维模型。与现有方法相比，该方法在重建精度和效率方面均有显著提升。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。通过使用更少的图像和更宽的视场，可以更高效地重建三维场景，为相关应用提供高质量的三维模型。该方法在文物数字化、城市建模等领域也具有潜在的应用价值。

📄 摘要（原文）

In this paper, we present a self-calibrating framework that jointly optimizes camera parameters, lens distortion and 3D Gaussian representations, enabling accurate and efficient scene reconstruction. In particular, our technique enables high-quality scene reconstruction from Large field-of-view (FOV) imagery taken with wide-angle lenses, allowing the scene to be modeled from a smaller number of images. Our approach introduces a novel method for modeling complex lens distortions using a hybrid network that combines invertible residual networks with explicit grids. This design effectively regularizes the optimization process, achieving greater accuracy than conventional camera models. Additionally, we propose a cubemap-based resampling strategy to support large FOV images without sacrificing resolution or introducing distortion artifacts. Our method is compatible with the fast rasterization of Gaussian Splatting, adaptable to a wide variety of camera lens distortion, and demonstrates state-of-the-art performance on both synthetic and real-world datasets.

Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理