Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision
作者: Yu Deng, Baozhu Zhao, Junyan Su, Xiaohan Zhang, Qi Liu
分类: cs.CV, cs.AI
发布日期: 2025-11-13
💡 一句话要点
提出基于物理散焦建模和多视角几何监督的深度一致性3D高斯溅射方法
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱六:视频提取与匹配 (Video Extraction & Matching) 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D高斯溅射 深度估计 景深监督 多视角一致性 物理散焦建模
📋 核心要点
- 现有方法在极端深度变化场景的三维重建中,无法同时保证远距离深度估计的准确性和近距离区域的结构完整性。
- 该论文提出结合景深监督和多视角一致性监督,利用物理散焦建模和几何约束,提升3D高斯溅射的深度一致性。
- 实验结果表明,该方法在Waymo开放数据集上优于现有技术,PSNR提升了0.8 dB,证明了其深度保真度的提升。
📝 摘要(中文)
在具有极端深度变化的场景中进行三维重建仍然具有挑战性,这是由于近场和远场区域之间存在不一致的监督信号。现有方法无法同时解决远处区域中不准确的深度估计和近距离区域中的结构退化问题。本文提出了一种新的计算框架,该框架集成了景深监督和多视角一致性监督,以改进3D高斯溅射。我们的方法包括两个核心组成部分:(1)景深监督,它采用尺度恢复的单目深度估计器(例如,Metric3D)来生成深度先验,利用散焦卷积来合成物理上精确的散焦图像,并通过新颖的景深损失来加强几何一致性,从而提高远场和近场区域的深度保真度;(2)多视角一致性监督,它采用基于LoFTR的半稠密特征匹配来最小化跨视角几何误差,并通过可靠匹配点的最小二乘优化来加强深度一致性。通过将散焦物理与多视角几何约束相结合,我们的方法实现了卓越的深度保真度,在Waymo开放数据集上比最先进的方法提高了0.8 dB PSNR。该框架桥接了物理成像原理和基于学习的深度正则化,为城市环境中复杂的深度分层提供了一种可扩展的解决方案。
🔬 方法详解
问题定义:现有3D重建方法在处理具有极端深度变化的场景时,面临着深度估计不准确和结构退化的问题。远距离区域的深度估计往往不准确,而近距离区域的结构容易出现退化。这是由于不同深度区域的监督信号不一致导致的。
核心思路:该论文的核心思路是将物理成像原理(景深)和多视角几何约束相结合,来提升3D高斯溅射的深度一致性。通过模拟真实相机的景深效果,并结合多视角几何信息,可以更准确地估计场景的深度信息,从而提高重建质量。
技术框架:该方法主要包含两个核心模块:景深监督和多视角一致性监督。首先,利用尺度恢复的单目深度估计器生成深度先验。然后,利用散焦卷积合成散焦图像,并通过景深损失来加强几何一致性。同时,利用LoFTR进行半稠密特征匹配,最小化跨视角几何误差,并通过最小二乘优化来加强深度一致性。这两个模块相互补充,共同提升深度估计的准确性。
关键创新:该方法最重要的创新点在于将物理散焦建模引入到3D高斯溅射中。通过模拟真实相机的景深效果,可以更准确地估计场景的深度信息。此外,结合多视角几何约束,可以进一步提高深度估计的鲁棒性。与现有方法相比,该方法更注重物理成像原理和几何约束,从而提高了深度估计的准确性。
关键设计:景深监督模块的关键设计在于散焦卷积和景深损失。散焦卷积用于模拟真实相机的景深效果,而景深损失用于约束合成图像和真实图像之间的几何一致性。多视角一致性监督模块的关键设计在于LoFTR特征匹配和最小二乘优化。LoFTR用于提取跨视角的特征点,而最小二乘优化用于优化深度信息,使其满足多视角几何约束。
📊 实验亮点
该方法在Waymo开放数据集上取得了显著的性能提升,PSNR指标比最先进的方法提高了0.8 dB。这一结果表明,该方法在深度估计的准确性和鲁棒性方面具有显著优势。通过结合物理散焦建模和多视角几何约束,该方法能够更准确地估计场景的深度信息,从而提高重建质量。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、城市建模等领域。在自动驾驶中,准确的深度估计对于环境感知至关重要。在机器人导航中,精确的三维重建可以帮助机器人更好地理解周围环境。在城市建模中,该方法可以用于生成高质量的城市三维模型,为城市规划和管理提供支持。未来,该方法有望进一步扩展到其他领域,例如虚拟现实和增强现实。
📄 摘要(原文)
Three-dimensional reconstruction in scenes with extreme depth variations remains challenging due to inconsistent supervisory signals between near-field and far-field regions. Existing methods fail to simultaneously address inaccurate depth estimation in distant areas and structural degradation in close-range regions. This paper proposes a novel computational framework that integrates depth-of-field supervision and multi-view consistency supervision to advance 3D Gaussian Splatting. Our approach comprises two core components: (1) Depth-of-field Supervision employs a scale-recovered monocular depth estimator (e.g., Metric3D) to generate depth priors, leverages defocus convolution to synthesize physically accurate defocused images, and enforces geometric consistency through a novel depth-of-field loss, thereby enhancing depth fidelity in both far-field and near-field regions; (2) Multi-View Consistency Supervision employing LoFTR-based semi-dense feature matching to minimize cross-view geometric errors and enforce depth consistency via least squares optimization of reliable matched points. By unifying defocus physics with multi-view geometric constraints, our method achieves superior depth fidelity, demonstrating a 0.8 dB PSNR improvement over the state-of-the-art method on the Waymo Open Dataset. This framework bridges physical imaging principles and learning-based depth regularization, offering a scalable solution for complex depth stratification in urban environments.