LighthouseGS: Indoor Structure-aware 3D Gaussian Splatting for Panorama-Style Mobile Captures
作者: Seungoh Han, Jaehoon Jang, Hyunsu Kim, Jaeheung Surh, Junhyung Kwak, Hyowon Ha, Kyungdon Joo
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-07-08
备注: Preprint
💡 一句话要点
LighthouseGS:面向全景式移动拍摄的室内结构感知3D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 室内场景重建 全景视图 平面结构感知
📋 核心要点
- 现有3DGS方法需要密集的图像覆盖,限制了在移动设备上使用全景式运动进行室内场景重建的便捷性。
- LighthouseGS利用全景视图的灯塔式扫描特性,结合几何先验和平面结构,实现更鲁棒的相机姿态估计和3D点云初始化。
- 实验结果表明,LighthouseGS在真实和合成室内场景中均优于现有方法,实现了高质量的全景视图合成。
📝 摘要(中文)
3D高斯溅射(3DGS)的最新进展使得在室内场景中实现高质量的实时新视角合成(NVS)成为可能。然而,实现高保真渲染需要精心捕获覆盖整个场景的图像,这限制了普通用户的可访问性。我们旨在开发一种实用的基于3DGS的NVS框架,该框架使用手持相机(例如,移动设备)进行简单的全景式运动。虽然这种以旋转为主的运动和窄基线很方便,但使得精确的相机姿态和3D点估计具有挑战性,尤其是在无纹理的室内场景中。为了解决这些挑战,我们提出了一种名为LighthouseGS的新框架,该框架的灵感来自全景视图的灯塔式扫描运动。LighthouseGS利用粗略的几何先验,例如移动设备相机姿态和单目深度估计,并利用室内环境中常见的平面结构。我们提出了一种新的初始化方法,称为平面支架组装,以在这些结构上生成一致的3D点,然后采用稳定的剪枝策略来增强几何形状和优化稳定性。此外,我们引入了几何和光度校正,以解决移动设备中运动漂移和自动曝光造成的不一致。在收集的真实和合成室内场景中进行测试,LighthouseGS提供了逼真的渲染,超越了最先进的方法,并展示了全景视图合成和对象放置的潜力。
🔬 方法详解
问题定义:论文旨在解决使用移动设备进行全景式拍摄时,由于旋转主导运动和窄基线导致的相机姿态估计不准确以及3D点云重建质量差的问题。现有方法难以在纹理匮乏的室内场景中实现高质量的3DGS重建。
核心思路:论文的核心思路是借鉴灯塔的扫描方式,利用全景图像的旋转特性,结合粗略的几何先验(相机姿态和单目深度估计)以及室内环境常见的平面结构,来引导3D高斯体的初始化和优化,从而提高重建的鲁棒性和准确性。
技术框架:LighthouseGS框架主要包含以下几个阶段:1) 利用移动设备的传感器数据和单目深度估计获取粗略的相机姿态和深度信息;2) 提出平面支架组装方法,根据检测到的平面结构初始化3D高斯体;3) 采用稳定的剪枝策略,去除冗余和不准确的高斯体,优化几何结构;4) 引入几何和光度校正,解决运动漂移和自动曝光带来的不一致性;5) 使用标准3DGS优化流程进行渲染。
关键创新:论文的关键创新在于:1) 提出了平面支架组装方法,利用室内环境的平面结构进行3D高斯体的初始化,避免了在纹理匮乏区域的重建困难;2) 设计了稳定的剪枝策略,有效去除了冗余和不准确的高斯体,提高了重建的几何质量和优化稳定性;3) 引入了几何和光度校正,解决了移动设备拍摄过程中常见的运动漂移和自动曝光问题。
关键设计:平面支架组装方法首先利用RANSAC等算法检测场景中的平面,然后根据相机姿态和深度信息,在平面上生成初始的3D高斯体。稳定的剪枝策略基于高斯体的不透明度和梯度等指标,自适应地去除冗余和不准确的高斯体。几何校正通过优化相机姿态来减少运动漂移的影响,光度校正则通过调整图像的亮度来消除自动曝光带来的不一致性。
🖼️ 关键图片
📊 实验亮点
LighthouseGS在合成和真实室内场景中均取得了显著的性能提升。在合成数据集上,LighthouseGS相比于现有方法,在PSNR、SSIM和LPIPS等指标上均有明显提升。在真实数据集上,LighthouseGS也能够生成更加清晰和逼真的渲染结果,尤其是在纹理匮乏的区域,展现了其在实际应用中的潜力。
🎯 应用场景
LighthouseGS具有广泛的应用前景,包括室内场景的快速3D重建、虚拟现实/增强现实应用中的场景建模、以及室内导航和机器人定位等领域。该方法能够利用普通移动设备进行高质量的室内场景重建,降低了3D建模的门槛,为用户提供了更加便捷和高效的解决方案。未来,该技术有望应用于智能家居、电商展示、游戏开发等多个领域。
📄 摘要(原文)
Recent advances in 3D Gaussian Splatting (3DGS) have enabled real-time novel view synthesis (NVS) with impressive quality in indoor scenes. However, achieving high-fidelity rendering requires meticulously captured images covering the entire scene, limiting accessibility for general users. We aim to develop a practical 3DGS-based NVS framework using simple panorama-style motion with a handheld camera (e.g., mobile device). While convenient, this rotation-dominant motion and narrow baseline make accurate camera pose and 3D point estimation challenging, especially in textureless indoor scenes. To address these challenges, we propose LighthouseGS, a novel framework inspired by the lighthouse-like sweeping motion of panoramic views. LighthouseGS leverages rough geometric priors, such as mobile device camera poses and monocular depth estimation, and utilizes the planar structures often found in indoor environments. We present a new initialization method called plane scaffold assembly to generate consistent 3D points on these structures, followed by a stable pruning strategy to enhance geometry and optimization stability. Additionally, we introduce geometric and photometric corrections to resolve inconsistencies from motion drift and auto-exposure in mobile devices. Tested on collected real and synthetic indoor scenes, LighthouseGS delivers photorealistic rendering, surpassing state-of-the-art methods and demonstrating the potential for panoramic view synthesis and object placement.