GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models
作者: Yongtao Ge, Guangkai Xu, Zhiyue Zhao, Libo Sun, Zheng Huang, Yanlong Sun, Hao Chen, Chunhua Shen
分类: cs.CV
发布日期: 2024-06-18 (更新: 2024-06-21)
备注: Code and Benchmark are available at: https://github.com/aim-uofa/GeoBench
💡 一句话要点
GeoBench:构建单目几何估计模型评测基准,揭示数据质量重要性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 几何估计 基准测试 数据质量 预训练模型
📋 核心要点
- 现有单目几何估计模型训练方式各异,数据集不同,难以公平比较和分析其性能。
- 构建统一代码库和高质量、多样化的评测基准GeoBench,用于公平评估和分析各类模型。
- 实验表明,高质量小规模合成数据微调的判别式模型优于生成式模型,数据质量更关键。
📝 摘要(中文)
近年来,判别式和生成式预训练方法在几何估计模型中展现出强大的泛化能力。判别式单目几何估计方法依赖大规模微调数据实现零样本泛化,而生成式方法则通过预训练扩散模型并在少量合成数据上微调,显示出在未见场景中实现出色泛化性能的潜力。然而,这些模型采用不同的训练方法和数据集,难以确定影响评估性能的关键因素。此外,现有的几何评估基准存在场景多样性有限和标签质量不佳等问题。为了解决这些问题,我们构建了一个统一的代码库,用于评估和分析几何估计模型,并使用具有多样场景和高质量标注的更具挑战性的基准来评估单目几何估计器。结果表明,使用大数据预训练的判别式模型(如DINOv2)在相同训练配置下优于使用少量高质量合成数据的生成式模型,这表明微调数据质量比数据规模和模型架构更重要。我们的观察也提出了一个问题:如果仅仅使用少量合成深度数据微调通用视觉模型(如DINOv2)就能产生SOTA结果,那么我们是否真的需要复杂的生成模型来进行深度估计?我们相信这项工作可以推动几何估计任务以及广泛的下游应用。
🔬 方法详解
问题定义:论文旨在解决单目几何估计模型评估中存在的公平性问题。现有方法在不同数据集和训练配置下进行评估,导致难以确定模型性能的关键因素。此外,现有基准测试集在场景多样性和标注质量方面存在不足,阻碍了该领域的发展。
核心思路:论文的核心思路是构建一个统一的评估框架,包括统一的代码库和高质量的评估基准。通过在相同配置下训练和评估不同的模型,可以更公平地比较它们的性能,并分析影响性能的关键因素。同时,高质量的评估基准可以更准确地反映模型的泛化能力。
技术框架:GeoBench包含以下主要组成部分:1) 统一的代码库,支持多种单目几何估计模型;2) 高质量的评估基准,包含多样化的场景和精确的标注;3) 标准化的评估流程,确保评估的公平性和可重复性。研究者可以使用GeoBench轻松地训练、评估和比较不同的模型。
关键创新:论文的关键创新在于构建了一个公平、高质量的单目几何估计模型评估基准。该基准不仅提供了多样化的场景和精确的标注,还提供了一个统一的代码库和标准化的评估流程,使得研究者可以更方便地进行模型评估和分析。此外,论文还通过实验揭示了数据质量在单目几何估计中的重要性。
关键设计:GeoBench基准测试集包含多个数据集,涵盖室内和室外场景。标注采用高精度深度传感器获取,并经过人工校正。评估指标包括深度误差、表面法向量误差等。代码库支持多种主流的单目几何估计模型,并提供了标准化的训练和评估脚本。损失函数采用常用的L1损失或L2损失,网络结构则根据不同的模型进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用大规模数据预训练的判别式模型(如DINOv2)在少量高质量合成数据上微调后,性能优于复杂的生成式模型。这表明数据质量比数据规模和模型架构更重要。例如,DINOv2在GeoBench上的深度估计精度显著高于其他模型,验证了预训练模型结合高质量微调数据的有效性。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、增强现实等领域。高质量的单目深度估计是这些应用的关键技术之一。GeoBench的发布将促进单目深度估计技术的发展,并推动相关应用的落地。此外,该研究也为其他计算机视觉任务的基准测试集构建提供了借鉴。
📄 摘要(原文)
Recent advances in discriminative and generative pretraining have yielded geometry estimation models with strong generalization capabilities. While discriminative monocular geometry estimation methods rely on large-scale fine-tuning data to achieve zero-shot generalization, several generative-based paradigms show the potential of achieving impressive generalization performance on unseen scenes by leveraging pre-trained diffusion models and fine-tuning on even a small scale of synthetic training data. Frustratingly, these models are trained with different recipes on different datasets, making it hard to find out the critical factors that determine the evaluation performance. Besides, current geometry evaluation benchmarks have two main drawbacks that may prevent the development of the field, i.e., limited scene diversity and unfavorable label quality. To resolve the above issues, (1) we build fair and strong baselines in a unified codebase for evaluating and analyzing the geometry estimation models; (2) we evaluate monocular geometry estimators on more challenging benchmarks for geometry estimation task with diverse scenes and high-quality annotations. Our results reveal that pre-trained using large data, discriminative models such as DINOv2, can outperform generative counterparts with a small amount of high-quality synthetic data under the same training configuration, which suggests that fine-tuning data quality is a more important factor than the data scale and model architecture. Our observation also raises a question: if simply fine-tuning a general vision model such as DINOv2 using a small amount of synthetic depth data produces SOTA results, do we really need complex generative models for depth estimation? We believe this work can propel advancements in geometry estimation tasks as well as a wide range of downstream applications.