Consistency Regularisation for Unsupervised Domain Adaptation in Monocular Depth Estimation
作者: Amir El-Ghoussani, Julia Hornauer, Gustavo Carneiro, Vasileios Belagiannis
分类: cs.CV
发布日期: 2024-05-27
备注: Accepted to Conference on Lifelong Learning Agents (CoLLAs) 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于一致性正则化的单目深度估计无监督领域自适应方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 无监督领域自适应 一致性正则化 半监督学习 深度学习
📋 核心要点
- 现有单目深度估计的无监督领域自适应方法依赖多个模型或复杂训练流程,效率较低。
- 本文将无监督领域自适应问题转化为一致性半监督学习,利用数据增强和一致性正则化。
- 实验表明,该方法在标准数据集上取得了优于现有方法的性能,且模型结构简单。
📝 摘要(中文)
本文针对单目深度估计中的无监督领域自适应问题,提出了一种基于一致性的半监督学习方法,旨在减少对大量带标注图像深度数据集的依赖。该方法仅利用源域的ground truth标签,通过引入一个pairwise损失函数来正则化源域上的预测,并强制未标注目标样本的多个增强视图之间的一致性。与现有方法需要训练多个模型或复杂的训练协议不同,本文方法简单有效,只需训练单个模型。在KITTI和NYUv2等标准深度估计基准测试中,实验结果表明,该方法与相关方法相比,达到了state-of-the-art的性能。此外,通过一系列消融研究,进一步分析了该方法的简洁性和有效性。
🔬 方法详解
问题定义:本文旨在解决单目深度估计中,由于标注数据获取困难,模型在目标域泛化能力差的问题。现有无监督领域自适应方法通常需要训练多个模型或采用复杂的训练策略,增加了计算成本和实现难度。
核心思路:本文的核心思路是将无监督领域自适应问题转化为一个半监督学习问题,利用源域的标注数据和目标域的未标注数据,通过一致性正则化来提高模型在目标域的泛化能力。核心假设是:对同一张图像进行不同的数据增强,其深度估计结果应该保持一致。
技术框架:该方法主要包含一个深度估计网络和一个一致性正则化模块。深度估计网络负责预测图像的深度图。一致性正则化模块对目标域的未标注图像进行多次数据增强,并将增强后的图像输入到深度估计网络中,得到多个深度图预测结果。然后,通过pairwise损失函数来约束这些深度图预测结果的一致性。
关键创新:本文的关键创新在于将一致性正则化引入到单目深度估计的无监督领域自适应中,并设计了一个pairwise损失函数来度量不同增强视图之间的深度图预测结果的一致性。与现有方法相比,该方法只需要训练一个模型,且训练过程更加简单。
关键设计:pairwise损失函数的设计是关键。具体来说,对于一张未标注的目标域图像,首先进行N次数据增强,得到N个增强后的图像。然后,将这些增强后的图像输入到深度估计网络中,得到N个深度图预测结果。pairwise损失函数计算这N个深度图预测结果两两之间的差异,并最小化这些差异。损失函数的具体形式未知,需要参考论文代码。
📊 实验亮点
实验结果表明,该方法在KITTI和NYUv2数据集上取得了state-of-the-art的性能。具体提升幅度未知,需要参考论文原文。消融实验验证了一致性正则化模块的有效性,表明该模块可以显著提高模型在目标域的泛化能力。该方法仅需训练单个模型,相比于需要训练多个模型的方法,训练效率更高。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实等领域。在这些领域中,获取精确的深度信息至关重要,而标注数据的成本往往很高。该方法通过无监督领域自适应,可以利用少量标注数据和大量未标注数据来训练深度估计模型,从而降低成本并提高模型的泛化能力。未来,该方法可以进一步扩展到其他视觉任务中。
📄 摘要(原文)
In monocular depth estimation, unsupervised domain adaptation has recently been explored to relax the dependence on large annotated image-based depth datasets. However, this comes at the cost of training multiple models or requiring complex training protocols. We formulate unsupervised domain adaptation for monocular depth estimation as a consistency-based semi-supervised learning problem by assuming access only to the source domain ground truth labels. To this end, we introduce a pairwise loss function that regularises predictions on the source domain while enforcing perturbation consistency across multiple augmented views of the unlabelled target samples. Importantly, our approach is simple and effective, requiring only training of a single model in contrast to the prior work. In our experiments, we rely on the standard depth estimation benchmarks KITTI and NYUv2 to demonstrate state-of-the-art results compared to related approaches. Furthermore, we analyse the simplicity and effectiveness of our approach in a series of ablation studies. The code is available at \url{https://github.com/AmirMaEl/SemiSupMDE}.