Boosting Generalizability towards Zero-Shot Cross-Dataset Single-Image Indoor Depth by Meta-Initialization
作者: Cho-Ying Wu, Yiqi Zhong, Junying Wang, Ulrich Neumann
分类: cs.CV, cs.AI
发布日期: 2024-09-04
备注: IROS 2024. The version supersedes 2305.07269. arXiv admin note: text overlap with arXiv:2305.07269
💡 一句话要点
提出基于元学习的单目图像深度估计方法,提升零样本跨数据集泛化能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 元学习 零样本学习 跨数据集泛化 室内场景 机器人感知
📋 核心要点
- 现有单目深度估计方法在跨数据集泛化性方面存在不足,难以适应真实场景的复杂变化。
- 该论文提出一种基于元学习的初始化方法,将每个RGB-D小批量视为一个任务,学习更好的模型先验。
- 实验表明,该方法在有限数据下能有效提升模型性能,且在零样本跨数据集测试中表现出更强的泛化能力。
📝 摘要(中文)
室内机器人依赖深度信息来执行导航或障碍物检测等任务,而单目图像深度估计被广泛用于辅助感知。现有的室内单目深度预测方法较少关注模型在未见数据集上的泛化能力,而更多关注系统部署的鲁棒性。本文利用基于梯度的元学习来获得更高的零样本跨数据集推理泛化能力。与主要研究的、与显式类别标签相关的图像分类元学习不同,对于与对象排列和场景构成高度变化的室内环境相关的连续深度值,不存在显式的任务边界。我们提出了一种细粒度的任务,将每个RGB-D小批量视为元学习公式中的一个任务。我们首先表明,我们的方法在有限的数据上可以产生更好的先验(RMSE最多降低27.8%)。然后,在元学习初始化上进行微调始终优于没有元学习方法的基线。为了实现泛化,我们提出了零样本跨数据集协议,并验证了我们的元初始化所带来的更高的泛化能力,作为一个简单而有用的插件,可以应用于许多现有的深度估计方法。这项工作处于深度学习和元学习的交叉点,有可能推动两方面的研究更接近实际的机器人和机器感知应用。
🔬 方法详解
问题定义:现有的单目图像深度估计方法在训练数据集上表现良好,但在未见过的室内场景数据集上泛化能力较差。这是因为不同数据集的场景构成、光照条件、相机参数等存在差异,导致模型难以适应新的环境。因此,如何提高单目深度估计模型在零样本跨数据集场景下的泛化能力是一个重要的挑战。
核心思路:该论文的核心思路是利用元学习的思想,让模型学习如何更好地初始化,从而更快地适应新的数据集。具体来说,通过将每个RGB-D小批量视为一个独立的任务,模型学习如何在不同的任务之间进行迁移,从而获得一个更好的先验知识。这种先验知识可以帮助模型在新的数据集上更快地收敛,并获得更好的泛化性能。
技术框架:该方法采用基于梯度的元学习框架。首先,将训练数据划分为多个小批量,每个小批量被视为一个任务。然后,模型在每个任务上进行训练,并计算梯度。接着,利用这些梯度来更新模型的初始化参数。这个过程重复多次,直到模型收敛。在测试阶段,使用学习到的初始化参数来初始化模型,并在新的数据集上进行微调。
关键创新:该论文的关键创新在于将元学习应用于单目深度估计任务,并提出了一种细粒度的任务划分方式。与传统的元学习方法不同,该方法没有显式的类别标签,而是将每个RGB-D小批量视为一个任务。这种细粒度的任务划分方式可以更好地捕捉室内场景的复杂变化,从而提高模型的泛化能力。
关键设计:该方法使用基于梯度的元学习算法,例如MAML。损失函数通常采用深度估计常用的损失函数,如L1损失或Huber损失。网络结构可以使用现有的深度估计网络,如ResNet或DenseNet。关键在于元学习的训练过程,需要仔细调整学习率、迭代次数等超参数,以获得最佳的初始化参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在有限数据下能够显著提升模型性能,RMSE最多降低27.8%。在零样本跨数据集测试中,该方法也表现出优于其他基线方法的泛化能力。该方法可以作为一个简单而有效的插件,应用于许多现有的深度估计方法,具有很强的实用价值。
🎯 应用场景
该研究成果可应用于室内机器人、增强现实、虚拟现实等领域。例如,室内机器人可以利用该方法进行自主导航和避障,增强现实应用可以利用该方法进行场景理解和物体识别。该研究有助于提高机器人在复杂环境下的感知能力,推动机器人技术的进一步发展。
📄 摘要(原文)
Indoor robots rely on depth to perform tasks like navigation or obstacle detection, and single-image depth estimation is widely used to assist perception. Most indoor single-image depth prediction focuses less on model generalizability to unseen datasets, concerned with in-the-wild robustness for system deployment. This work leverages gradient-based meta-learning to gain higher generalizability on zero-shot cross-dataset inference. Unlike the most-studied meta-learning of image classification associated with explicit class labels, no explicit task boundaries exist for continuous depth values tied to highly varying indoor environments regarding object arrangement and scene composition. We propose fine-grained task that treats each RGB-D mini-batch as a task in our meta-learning formulation. We first show that our method on limited data induces a much better prior (max 27.8% in RMSE). Then, finetuning on meta-learned initialization consistently outperforms baselines without the meta approach. Aiming at generalization, we propose zero-shot cross-dataset protocols and validate higher generalizability induced by our meta-initialization, as a simple and useful plugin to many existing depth estimation methods. The work at the intersection of depth and meta-learning potentially drives both research to step closer to practical robotic and machine perception usage.