Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization

📄 arXiv: 2511.14238v1 📥 PDF

作者: Yan Huang, Yongyi Su, Xin Lin, Le Zhang, Xun Xu

分类: cs.CV, cs.LG

发布日期: 2025-11-18

备注: Accepted by AAAI 2026


💡 一句话要点

提出WeSTAR框架,通过弱监督自训练和正则化提升深度估计基础模型泛化能力

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 单目深度估计 弱监督学习 自训练 领域自适应 正则化 深度学习 泛化能力

📋 核心要点

  1. 单目深度估计基础模型在零样本泛化方面表现出色,但针对特定下游任务的性能仍有提升空间。
  2. WeSTAR框架利用弱监督自训练和正则化,在保证参数效率的同时,增强模型在未见领域中的鲁棒性。
  3. 实验表明,WeSTAR在各种数据集上均能显著提升深度估计的泛化性能,达到当前最佳水平。

📝 摘要(中文)

深度估计基础模型的出现显著提升了单目深度估计(MDE)的零样本泛化能力,Depth Anything系列是其中的典型代表。然而,如果能够获取下游任务的一些数据,一个自然的问题是:这些模型的性能能否进一步提高?为此,我们提出了WeSTAR,一个参数高效的框架,它执行带正则化的弱监督自训练适应,旨在增强MDE基础模型在未见过的多样化领域中的鲁棒性。我们首先采用密集自训练目标作为结构自监督的主要来源。为了进一步提高鲁棒性,我们引入了语义感知的分层归一化,它利用实例级分割图来执行更稳定和多尺度的结构归一化。除了密集监督之外,我们还引入了一种经济高效的弱监督形式,即成对序数深度标注,以进一步指导适应过程,这强制执行信息丰富的序数约束,以减轻局部拓扑错误。最后,采用权重正则化损失来锚定LoRA更新,确保训练稳定性并保留模型的可泛化知识。在各种具有挑战性的场景下,对真实和损坏的分布外数据集进行的大量实验表明,WeSTAR始终如一地提高了泛化能力,并在各种基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:现有的深度估计基础模型虽然具备一定的零样本泛化能力,但在特定下游任务上,尤其是在面对分布外数据时,性能仍有待提高。直接在目标域上进行微调容易过拟合,且计算成本较高。因此,如何在有限的数据和计算资源下,提升模型在未见领域中的鲁棒性和泛化能力是一个关键问题。

核心思路:WeSTAR的核心思路是利用弱监督自训练和正则化策略,在保留基础模型通用知识的同时,使其能够更好地适应目标域的数据分布。通过自训练生成伪标签,提供密集的结构自监督;利用弱监督的序数深度信息,纠正局部拓扑错误;并采用权重正则化,防止模型过度偏离原始状态,从而实现更稳定的适应过程。

技术框架:WeSTAR框架主要包含三个核心模块:1) 密集自训练模块,利用基础模型生成伪深度图,作为自监督信号;2) 语义感知的分层归一化模块,利用实例分割信息进行多尺度归一化,提高鲁棒性;3) 弱监督序数深度约束模块,利用成对的深度关系标注,纠正局部拓扑错误。此外,还引入了权重正则化损失,以稳定训练过程。整体流程是先进行自训练,然后结合弱监督信息进行微调,最后通过正则化约束模型参数。

关键创新:WeSTAR的关键创新在于结合了密集自训练、语义感知的分层归一化和弱监督序数深度约束,形成了一种互补的监督信号。与传统的微调方法相比,WeSTAR更加注重利用模型自身的知识和数据中的结构信息,从而在有限的监督下实现更好的泛化性能。此外,参数高效的LoRA更新方式也降低了计算成本。

关键设计:语义感知的分层归一化利用实例分割图将图像划分为不同的语义区域,然后对每个区域进行独立的归一化,从而更好地适应不同区域的深度分布。弱监督序数深度约束通过比较图像中两个像素的深度关系,构建损失函数,引导模型学习正确的深度顺序。权重正则化损失采用L2正则化,约束LoRA更新的幅度,防止模型参数发生剧烈变化。

📊 实验亮点

WeSTAR在多个具有挑战性的数据集上取得了显著的性能提升。例如,在真实数据集和损坏的分布外数据集上,WeSTAR均优于现有的深度估计方法,并在各种基准测试中达到了最先进的水平。实验结果表明,WeSTAR能够有效地提高深度估计模型的泛化能力和鲁棒性。

🎯 应用场景

WeSTAR框架可应用于各种需要单目深度估计的场景,例如自动驾驶、机器人导航、增强现实等。通过提升深度估计的准确性和鲁棒性,可以提高这些应用在复杂环境下的性能和可靠性。此外,该方法参数高效的特点使其更易于部署在资源受限的设备上,具有广泛的应用前景。

📄 摘要(原文)

The emergence of foundation models has substantially advanced zero-shot generalization in monocular depth estimation (MDE), as exemplified by the Depth Anything series. However, given access to some data from downstream tasks, a natural question arises: can the performance of these models be further improved? To this end, we propose WeSTAR, a parameter-efficient framework that performs Weakly supervised Self-Training Adaptation with Regularization, designed to enhance the robustness of MDE foundation models in unseen and diverse domains. We first adopt a dense self-training objective as the primary source of structural self-supervision. To further improve robustness, we introduce semantically-aware hierarchical normalization, which exploits instance-level segmentation maps to perform more stable and multi-scale structural normalization. Beyond dense supervision, we introduce a cost-efficient weak supervision in the form of pairwise ordinal depth annotations to further guide the adaptation process, which enforces informative ordinal constraints to mitigate local topological errors. Finally, a weight regularization loss is employed to anchor the LoRA updates, ensuring training stability and preserving the model's generalizable knowledge. Extensive experiments on both realistic and corrupted out-of-distribution datasets under diverse and challenging scenarios demonstrate that WeSTAR consistently improves generalization and achieves state-of-the-art performance across a wide range of benchmarks.