Honey, I Shrunk the Arc de Triomphe!
作者: Yuanbo Xiangli, Hanyu Chen, Xueqing Tsang, Noah Snavely
分类: cs.CV
发布日期: 2026-06-01
备注: Project page: https://metricscenes.github.io/
💡 一句话要点
提出MetricScenes数据集以解决单目几何估计中的尺度崩溃问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目几何估计 尺度崩溃 MetricScenes数据集 深度图补全 相机姿态估计 机器学习 计算机视觉
📋 核心要点
- 现有的单目几何估计方法在处理远距离地标和广阔景观时,常常出现尺度崩溃现象,导致度量不准确。
- 论文提出了MetricScenes数据集,结合多种来源的数据,旨在解决训练数据的同质性问题,从而改善尺度估计的准确性。
- 通过在MetricScenes上微调MoGe-2,实验结果显示在开放域场景中显著提高了度量精度,减轻了尺度崩溃现象。
📝 摘要(中文)
单目几何估计在大规模数据聚合方面取得了显著进展,但现有基础模型仍面临“尺度崩溃”现象,导致远处地标和广阔景观的度量被低估。我们认为这一性能差距源于训练数据瓶颈,现有的度量尺度数据集受限于同质化的车辆捕获LiDAR或短距离室内扫描,或由缺乏语义复杂性的合成数据构成。为了解决这一问题,我们策划了一个新的度量基础的野外数据集MetricScenes,数据来源包括互联网照片集和立体图像。我们使用现成的方法估计每个场景的相机姿态和初始深度图,并通过地理标记元数据和已知的立体相机基线恢复绝对尺度。通过新的两阶段泊松补全方法,我们还提高了从MetricScenes导出的深度图的质量。在我们的数据集上微调MoGe-2显著减轻了尺度崩溃,并在无约束的开放域场景中实现了更优的度量精度,同时在标准基准上保持了最先进的性能。
🔬 方法详解
问题定义:本论文旨在解决单目几何估计中的尺度崩溃问题,现有方法在处理远距离地标和复杂场景时表现不佳,导致度量结果低估。
核心思路:我们提出了MetricScenes数据集,旨在通过多样化的数据来源来克服现有数据集的同质性限制,从而提高模型在实际场景中的表现。
技术框架:整体流程包括数据收集、相机姿态和深度图的初步估计、绝对尺度的恢复以及深度图的质量提升。数据收集涵盖互联网照片和立体图像,使用现成的方法进行初步估计。
关键创新:最重要的创新在于构建了一个多样化的、具有度量基础的野外数据集MetricScenes,并提出了新的两阶段泊松补全方法来提升深度图质量,这与现有方法的单一数据来源形成鲜明对比。
关键设计:在模型微调过程中,采用了特定的损失函数以优化尺度估计,同时在深度图补全阶段引入了泊松方程的求解策略,以提高深度图的细节和准确性。
🖼️ 关键图片
📊 实验亮点
在MetricScenes数据集上微调MoGe-2后,模型在开放域场景中显著减轻了尺度崩溃现象,度量精度提高了XX%(具体数据未知),同时在标准基准测试中保持了最先进的性能,展示了该方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、增强现实和机器人导航等,能够为这些领域提供更准确的环境理解和空间定位能力。通过改善尺度估计的准确性,未来的系统将能够更好地处理复杂的现实场景,提升用户体验和安全性。
📄 摘要(原文)
Metric scale monocular geometry estimation has seen significant progress through large-scale data aggregation, yet current foundation models suffer from a persistent ''scale-collapse'' phenomenon: distant landmarks and vast landscapes are metrically underestimated. We hypothesize that this performance gap stems from a training data bottleneck, where existing metric-scale datasets are hardware-constrained to homogenous vehicle-captured LiDAR or short-range indoor scans, or consist of synthetic data that lacks the semantic complexity of the physical world. To bridge this gap, we curate a new metrically-grounded, in-the-wild dataset that we call MetricScenes, gathered from a variety of sources including Internet photo collections and stereo imagery. We estimate camera poses and initial depth maps for each scene using off-the-shelf methods, and recover absolute scale from geo-tagged metadata as well as known stereo camera baselines. We also improve the quality of depth maps derived from MetricScenes via a new two-stage Poisson completion method. Fine-tuning MoGe-2 on our dataset significantly mitigates scale-collapse and achieves superior metric accuracy in unconstrained, open-domain scenes while maintaining state-of-the-art performance on standard benchmarks.