GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras
作者: Weimin Liu, Wenjun Wang, Joshua H. Meng
分类: cs.CV
发布日期: 2026-01-09
💡 一句话要点
GeoSurDepth:面向环视相机的空间几何一致性自监督深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 环视相机 深度估计 自监督学习 几何一致性 视图合成
📋 核心要点
- 现有环视深度估计方法主要依赖光度约束,忽略了场景中丰富的几何结构信息,导致深度估计精度受限。
- GeoSurDepth利用几何一致性作为主要线索,结合基础模型提供的几何先验,提升深度估计的准确性和鲁棒性。
- 通过空间扭曲重建密集深度,并引入自适应联合运动学习策略,GeoSurDepth在DDAD和nuScenes数据集上取得了SOTA性能。
📝 摘要(中文)
精确的环视深度估计为激光雷达传感器提供了一种有竞争力的替代方案,并且对于自动驾驶中的3D场景理解至关重要。虽然先前的研究已经提出了各种主要侧重于在光度层面强制执行跨视图约束的方法,但很少有明确地利用单目和环视设置中固有的丰富几何结构。在本文中,我们提出了GeoSurDepth,一个利用几何一致性作为环视深度估计的主要线索的框架。具体而言,我们利用基础模型作为伪几何先验和特征表示增强工具,以引导网络在空间3D空间中保持表面法线一致性,并规范2D中对象和纹理一致的深度估计。此外,我们引入了一种新颖的视图合成管线,其中2D-3D lifting是通过空间扭曲重建的密集深度来实现的,从而鼓励跨时间、空间和时空上下文的额外光度监督,并弥补单视图图像重建的局限性。最后,一种新提出的自适应联合运动学习策略使网络能够自适应地强调信息丰富的空间几何线索,以改进运动推理。在DDAD和nuScenes上的大量实验表明,GeoSurDepth实现了最先进的性能,验证了我们方法的有效性。我们的框架突出了利用几何相干性和一致性对于鲁棒的自监督多视图深度估计的重要性。
🔬 方法详解
问题定义:论文旨在解决环视相机深度估计问题。现有方法主要依赖光度一致性,忽略了场景固有的几何结构,导致在纹理缺失或光照变化剧烈的情况下,深度估计精度下降。此外,单视图重建的局限性也限制了深度估计的准确性。
核心思路:论文的核心思路是利用几何一致性作为主要线索,结合基础模型提供的几何先验,引导网络学习更准确的深度信息。通过在空间3D空间中保持表面法线一致性,并规范2D中对象和纹理一致的深度估计,从而提高深度估计的鲁棒性和准确性。
技术框架:GeoSurDepth框架主要包含以下几个模块:1) 特征提取模块:使用卷积神经网络提取多视角图像的特征。2) 几何先验模块:利用基础模型(如DINO)提取的特征作为伪几何先验,指导网络学习。3) 深度估计模块:基于特征和几何先验,估计每个像素的深度值。4) 视图合成模块:通过空间扭曲重建密集深度,实现跨时间、空间和时空上下文的视图合成。5) 运动估计模块:使用自适应联合运动学习策略,估计相机的运动参数。
关键创新:论文的关键创新点在于:1) 将几何一致性作为环视深度估计的主要线索。2) 利用基础模型作为伪几何先验,增强特征表示。3) 提出了一种新颖的视图合成管线,通过空间扭曲重建密集深度。4) 引入了一种自适应联合运动学习策略,提高运动估计的准确性。与现有方法相比,GeoSurDepth更注重利用场景的几何信息,从而提高了深度估计的鲁棒性和准确性。
关键设计:论文的关键设计包括:1) 使用DINO提取的特征作为几何先验。2) 设计了空间扭曲算法,用于重建密集深度和实现视图合成。3) 提出了自适应联合运动学习策略,根据几何线索的置信度,自适应地调整运动估计的权重。4) 使用了多种损失函数,包括光度损失、深度一致性损失和表面法线一致性损失,以约束网络的学习。
📊 实验亮点
GeoSurDepth在DDAD和nuScenes数据集上取得了state-of-the-art的性能。具体来说,在DDAD数据集上,GeoSurDepth的深度估计误差显著低于现有方法。在nuScenes数据集上,GeoSurDepth在多个指标上都取得了最佳结果,验证了该方法的有效性。
🎯 应用场景
GeoSurDepth在自动驾驶领域具有广泛的应用前景,可以用于构建高精度的3D场景地图,提高车辆的感知能力和决策能力。此外,该方法还可以应用于机器人导航、虚拟现实、增强现实等领域,为这些应用提供更准确的深度信息。
📄 摘要(原文)
Accurate surround-view depth estimation provides a competitive alternative to laser-based sensors and is essential for 3D scene understanding in autonomous driving. While prior studies have proposed various approaches that primarily focus on enforcing cross-view constraints at the photometric level, few explicitly exploit the rich geometric structure inherent in both monocular and surround-view setting. In this work, we propose GeoSurDepth, a framework that leverages geometry consistency as the primary cue for surround-view depth estimation. Concretely, we utilize foundation models as a pseudo geometry prior and feature representation enhancement tool to guide the network to maintain surface normal consistency in spatial 3D space and regularize object- and texture-consistent depth estimation in 2D. In addition, we introduce a novel view synthesis pipeline where 2D-3D lifting is achieved with dense depth reconstructed via spatial warping, encouraging additional photometric supervision across temporal, spatial, and spatial-temporal contexts, and compensating for the limitations of single-view image reconstruction. Finally, a newly-proposed adaptive joint motion learning strategy enables the network to adaptively emphasize informative spatial geometry cues for improved motion reasoning. Extensive experiments on DDAD and nuScenes demonstrate that GeoSurDepth achieves state-of-the-art performance, validating the effectiveness of our approach. Our framework highlights the importance of exploiting geometry coherence and consistency for robust self-supervised multi-view depth estimation.