Synthetic-to-Real Self-supervised Robust Depth Estimation via Learning with Motion and Structure Priors
作者: Weilong Yan, Ming Li, Haipeng Li, Shuwei Shao, Robby T. Tan
分类: cs.CV, cs.RO
发布日期: 2025-03-26
💡 一句话要点
提出基于运动和结构先验的自监督深度估计框架,提升恶劣天气下的鲁棒性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自监督学习 深度估计 鲁棒性 合成到真实 运动先验 结构先验 恶劣天气 单目视觉
📋 核心要点
- 现有自监督深度估计方法在恶劣天气下表现不佳,缺乏鲁棒性,主要原因是难以学习通用的特征表示。
- 该论文提出一种合成到真实的自监督框架,利用运动和结构先验知识,提升模型在真实恶劣天气下的泛化能力。
- 实验结果表明,该方法在多个数据集上显著优于现有技术,尤其是在恶劣天气条件下,深度估计精度得到大幅提升。
📝 摘要(中文)
本文提出了一种新颖的合成到真实的自监督鲁棒深度估计框架,旨在解决单目相机在各种户外条件下(如白天、雨天和夜间)深度估计的难题。现有方法要么依赖合成输入和伪深度标签,要么直接将白天策略应用于恶劣条件,导致效果欠佳。该框架结合运动和结构先验,以有效捕获真实世界的知识。在合成数据适应阶段,通过冻结的白天模型训练恶劣天气下的深度估计器,将运动-结构知识融入代价体中,以获得更好的鲁棒表示。在真实数据适应阶段,利用早期训练的模型,通过一致性重加权策略来强调有效的伪标签,从而弥合合成数据和真实数据之间的差距。此外,引入显式深度分布正则化,以约束模型在面对真实世界数据时的行为。实验结果表明,该方法在多帧和单帧评估中均优于现有技术,在nuScenes和Robotcar数据集(白天、夜间、雨天)上的AbsRel和RMSE指标平均提升了7.5%和4.3%。在DrivingStereo数据集(雨天、雾天)上的零样本评估中,该方法也表现出更好的泛化能力。
🔬 方法详解
问题定义:论文旨在解决单目视觉自监督深度估计在复杂户外环境下的鲁棒性问题,尤其是在白天、雨天、夜间等不同光照和天气条件下的性能下降问题。现有方法要么依赖于合成数据,但存在合成数据和真实数据之间的gap;要么直接将白天场景训练的模型应用于恶劣天气,效果不佳。这些方法无法很好地学习到适应各种环境的通用特征表示。
核心思路:论文的核心思路是利用合成数据进行预训练,然后通过运动和结构先验知识,以及一致性重加权策略,逐步适应真实数据,从而弥合合成数据和真实数据之间的gap,提升模型在真实恶劣天气下的鲁棒性。通过运动和结构先验,模型可以更好地理解场景的几何结构,从而提高深度估计的准确性。
技术框架:整体框架包含两个主要阶段:合成数据适应和真实数据适应。在合成数据适应阶段,使用一个在白天数据上预训练好的模型,在合成的恶劣天气数据上进行训练,同时将运动和结构信息融入代价体中。在真实数据适应阶段,利用之前训练的模型,通过一致性重加权策略选择可靠的伪标签,并使用显式深度分布正则化来约束模型。
关键创新:论文的关键创新在于:1) 提出了一种合成到真实的自监督深度估计框架,专门针对恶劣天气条件下的鲁棒性问题。2) 将运动和结构先验知识融入到代价体中,以提高特征表示的鲁棒性。3) 设计了一种一致性重加权策略,用于选择可靠的伪标签,从而更好地适应真实数据。4) 引入了显式深度分布正则化,以约束模型在面对真实数据时的行为。
关键设计:在合成数据适应阶段,使用冻结的白天模型来训练恶劣天气下的深度估计器,目的是保留白天场景的知识,并将其迁移到恶劣天气场景中。在真实数据适应阶段,一致性重加权策略根据不同视角下深度估计的一致性来选择可靠的伪标签。显式深度分布正则化通过最小化预测深度分布与真实深度分布之间的差异来约束模型。损失函数包括光度一致性损失、平滑损失和深度分布正则化损失。
🖼️ 关键图片
📊 实验亮点
该方法在nuScenes和Robotcar数据集上取得了显著的性能提升,在AbsRel和RMSE指标上平均提升了7.5%和4.3%。在DrivingStereo数据集上的零样本评估中,该方法也表现出更好的泛化能力,证明了其在恶劣天气条件下的鲁棒性。这些结果表明,该方法在自监督深度估计领域具有重要的研究价值和应用前景。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在自动驾驶中,准确的深度估计对于环境感知至关重要,尤其是在恶劣天气条件下。该方法可以提高自动驾驶系统在各种天气条件下的安全性和可靠性。在机器人导航中,深度信息可以帮助机器人理解周围环境,从而更好地进行路径规划和避障。在增强现实中,深度信息可以用于将虚拟物体与真实场景进行精确的融合。
📄 摘要(原文)
Self-supervised depth estimation from monocular cameras in diverse outdoor conditions, such as daytime, rain, and nighttime, is challenging due to the difficulty of learning universal representations and the severe lack of labeled real-world adverse data. Previous methods either rely on synthetic inputs and pseudo-depth labels or directly apply daytime strategies to adverse conditions, resulting in suboptimal results. In this paper, we present the first synthetic-to-real robust depth estimation framework, incorporating motion and structure priors to capture real-world knowledge effectively. In the synthetic adaptation, we transfer motion-structure knowledge inside cost volumes for better robust representation, using a frozen daytime model to train a depth estimator in synthetic adverse conditions. In the innovative real adaptation, which targets to fix synthetic-real gaps, models trained earlier identify the weather-insensitive regions with a designed consistency-reweighting strategy to emphasize valid pseudo-labels. We introduce a new regularization by gathering explicit depth distributions to constrain the model when facing real-world data. Experiments show that our method outperforms the state-of-the-art across diverse conditions in multi-frame and single-frame evaluations. We achieve improvements of 7.5% and 4.3% in AbsRel and RMSE on average for nuScenes and Robotcar datasets (daytime, nighttime, rain). In zero-shot evaluation of DrivingStereo (rain, fog), our method generalizes better than the previous ones.