Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction
作者: Youming Deng, Wenqi Xian, Guandao Yang, Leonidas Guibas, Gordon Wetzstein, Steve Marschner, Paul Debevec
分类: cs.CV, cs.GR
发布日期: 2025-02-13 (更新: 2025-04-03)
备注: Project Page: https://denghilbert.github.io/self-cali/
💡 一句话要点
提出自校准高斯溅射方法,用于大视场重建,提升相机参数和镜头畸变优化。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯溅射 自校准 大视场重建 镜头畸变校正 可逆残差网络 三维重建 相机参数估计
📋 核心要点
- 现有方法在处理大视场图像时,相机参数和镜头畸变的精确估计面临挑战,影响重建质量。
- 论文提出自校准框架,联合优化相机参数、镜头畸变和3D高斯表示,提升重建精度和效率。
- 实验结果表明,该方法在合成和真实数据集上均取得了优异的性能,优于现有技术。
📝 摘要(中文)
本文提出了一种自校准框架,该框架联合优化相机参数、镜头畸变和3D高斯表示,从而实现精确而高效的场景重建。特别地,我们的技术能够从使用广角镜头拍摄的大视场(FOV)图像中实现高质量的场景重建,从而允许从更少数量的图像中对场景进行建模。我们的方法引入了一种新颖的方法,使用混合网络(将可逆残差网络与显式网格相结合)来建模复杂的镜头畸变。这种设计有效地正则化了优化过程,实现了比传统相机模型更高的精度。此外,我们提出了一种基于立方体贴图的重采样策略,以支持大的FOV图像,而不会牺牲分辨率或引入畸变伪影。我们的方法与高斯溅射的快速光栅化兼容,适用于各种相机镜头畸变,并在合成和真实世界数据集上展示了最先进的性能。
🔬 方法详解
问题定义:现有的大视场场景重建方法通常难以准确估计相机参数和镜头畸变,尤其是在使用广角镜头时,这会导致重建结果出现明显的几何失真和伪影。传统相机模型难以充分表达复杂的镜头畸变,限制了重建质量。
核心思路:论文的核心思路是通过联合优化相机参数、镜头畸变和3D高斯表示,实现自校准。通过将镜头畸变建模融入到高斯溅射的优化过程中,可以更准确地估计相机参数,并减少对初始相机姿态的依赖。混合网络的设计能够有效地正则化镜头畸变的优化,避免过拟合。
技术框架:该方法主要包含以下几个阶段:1)图像采集:使用带有广角镜头的相机拍摄场景图像。2)初始化:初始化相机参数和3D高斯表示。3)联合优化:使用混合网络建模镜头畸变,并与相机参数和3D高斯表示一起进行优化。4)渲染:使用优化后的参数和高斯表示渲染重建结果。5)基于立方体贴图的重采样:为了处理大视场图像,采用基于立方体贴图的重采样策略,避免分辨率损失和畸变。
关键创新:该方法最重要的技术创新点在于使用混合网络建模镜头畸变。该混合网络结合了可逆残差网络和显式网格,能够更灵活、更准确地表达复杂的镜头畸变。与传统的相机模型相比,该方法能够更好地正则化优化过程,避免过拟合,从而提高相机参数和镜头畸变的估计精度。
关键设计:混合网络由可逆残差网络和显式网格组成。可逆残差网络用于学习镜头畸变的非线性部分,而显式网格用于建模畸变的线性部分。损失函数包括重建损失和正则化项,用于约束相机参数和镜头畸变的优化。基于立方体贴图的重采样策略将图像投影到立方体贴图上,然后进行渲染,从而避免了在大视场图像中出现分辨率损失和畸变伪影。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在合成和真实数据集上均取得了最先进的性能。在合成数据集上,该方法能够准确地估计相机参数和镜头畸变,并重建出高质量的三维场景。在真实数据集上,该方法也能够有效地处理大视场图像,并重建出具有高保真度的三维模型。与现有方法相比,该方法在重建精度和效率方面均有显著提升。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。通过使用更少的图像和更宽的视场,可以更高效地重建三维场景,为相关应用提供高质量的三维模型。该方法在文物数字化、城市建模等领域也具有潜在的应用价值。
📄 摘要(原文)
In this paper, we present a self-calibrating framework that jointly optimizes camera parameters, lens distortion and 3D Gaussian representations, enabling accurate and efficient scene reconstruction. In particular, our technique enables high-quality scene reconstruction from Large field-of-view (FOV) imagery taken with wide-angle lenses, allowing the scene to be modeled from a smaller number of images. Our approach introduces a novel method for modeling complex lens distortions using a hybrid network that combines invertible residual networks with explicit grids. This design effectively regularizes the optimization process, achieving greater accuracy than conventional camera models. Additionally, we propose a cubemap-based resampling strategy to support large FOV images without sacrificing resolution or introducing distortion artifacts. Our method is compatible with the fast rasterization of Gaussian Splatting, adaptable to a wide variety of camera lens distortion, and demonstrates state-of-the-art performance on both synthetic and real-world datasets.