Honey, I Shrunk the Arc de Triomphe!

作者: Yuanbo Xiangli, Hanyu Chen, Xueqing Tsang, Noah Snavely

分类: cs.CV

发布日期: 2026-06-01

备注: Project page: https://metricscenes.github.io/

💡 一句话要点

提出MetricScenes数据集以解决单目几何估计中的尺度崩溃问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目几何估计 尺度崩溃 MetricScenes数据集 深度图补全 相机姿态估计 机器学习 计算机视觉

📋 核心要点

现有的单目几何估计方法在处理远距离地标和广阔景观时，常常出现尺度崩溃现象，导致度量不准确。
论文提出了MetricScenes数据集，结合多种来源的数据，旨在解决训练数据的同质性问题，从而改善尺度估计的准确性。
通过在MetricScenes上微调MoGe-2，实验结果显示在开放域场景中显著提高了度量精度，减轻了尺度崩溃现象。

📝 摘要（中文）

单目几何估计在大规模数据聚合方面取得了显著进展，但现有基础模型仍面临“尺度崩溃”现象，导致远处地标和广阔景观的度量被低估。我们认为这一性能差距源于训练数据瓶颈，现有的度量尺度数据集受限于同质化的车辆捕获LiDAR或短距离室内扫描，或由缺乏语义复杂性的合成数据构成。为了解决这一问题，我们策划了一个新的度量基础的野外数据集MetricScenes，数据来源包括互联网照片集和立体图像。我们使用现成的方法估计每个场景的相机姿态和初始深度图，并通过地理标记元数据和已知的立体相机基线恢复绝对尺度。通过新的两阶段泊松补全方法，我们还提高了从MetricScenes导出的深度图的质量。在我们的数据集上微调MoGe-2显著减轻了尺度崩溃，并在无约束的开放域场景中实现了更优的度量精度，同时在标准基准上保持了最先进的性能。

🔬 方法详解

问题定义：本论文旨在解决单目几何估计中的尺度崩溃问题，现有方法在处理远距离地标和复杂场景时表现不佳，导致度量结果低估。

核心思路：我们提出了MetricScenes数据集，旨在通过多样化的数据来源来克服现有数据集的同质性限制，从而提高模型在实际场景中的表现。

技术框架：整体流程包括数据收集、相机姿态和深度图的初步估计、绝对尺度的恢复以及深度图的质量提升。数据收集涵盖互联网照片和立体图像，使用现成的方法进行初步估计。

关键创新：最重要的创新在于构建了一个多样化的、具有度量基础的野外数据集MetricScenes，并提出了新的两阶段泊松补全方法来提升深度图质量，这与现有方法的单一数据来源形成鲜明对比。

关键设计：在模型微调过程中，采用了特定的损失函数以优化尺度估计，同时在深度图补全阶段引入了泊松方程的求解策略，以提高深度图的细节和准确性。

🖼️ 关键图片

📊 实验亮点

在MetricScenes数据集上微调MoGe-2后，模型在开放域场景中显著减轻了尺度崩溃现象，度量精度提高了XX%（具体数据未知），同时在标准基准测试中保持了最先进的性能，展示了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、增强现实和机器人导航等，能够为这些领域提供更准确的环境理解和空间定位能力。通过改善尺度估计的准确性，未来的系统将能够更好地处理复杂的现实场景，提升用户体验和安全性。

📄 摘要（原文）

Metric scale monocular geometry estimation has seen significant progress through large-scale data aggregation, yet current foundation models suffer from a persistent ''scale-collapse'' phenomenon: distant landmarks and vast landscapes are metrically underestimated. We hypothesize that this performance gap stems from a training data bottleneck, where existing metric-scale datasets are hardware-constrained to homogenous vehicle-captured LiDAR or short-range indoor scans, or consist of synthetic data that lacks the semantic complexity of the physical world. To bridge this gap, we curate a new metrically-grounded, in-the-wild dataset that we call MetricScenes, gathered from a variety of sources including Internet photo collections and stereo imagery. We estimate camera poses and initial depth maps for each scene using off-the-shelf methods, and recover absolute scale from geo-tagged metadata as well as known stereo camera baselines. We also improve the quality of depth maps derived from MetricScenes via a new two-stage Poisson completion method. Fine-tuning MoGe-2 on our dataset significantly mitigates scale-collapse and achieves superior metric accuracy in unconstrained, open-domain scenes while maintaining state-of-the-art performance on standard benchmarks.

Honey, I Shrunk the Arc de Triomphe!

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理