MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details

📄 arXiv: 2507.02546v1 📥 PDF

作者: Ruicheng Wang, Sicheng Xu, Yue Dong, Yu Deng, Jianfeng Xiang, Zelong Lv, Guangzhong Sun, Xin Tong, Jiaolong Yang

分类: cs.CV

发布日期: 2025-07-03

备注: Project page: https://wangrc.site/MoGe2Page/


💡 一句话要点

MoGe-2:提出一种精确的单目几何估计模型,可恢复具有度量尺度和清晰细节的场景3D点云。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目几何估计 度量尺度 三维重建 数据细化 深度学习

📋 核心要点

  1. 现有单目几何估计方法难以同时保证相对几何精度、度量尺度精确性和精细细节恢复。
  2. MoGe-2通过扩展MoGe,并结合数据细化方法,实现了度量几何预测,同时保持相对几何精度。
  3. 实验表明,MoGe-2在混合数据集上训练后,能够显著提高重建几何的粒度,并实现卓越的性能。

📝 摘要(中文)

本文提出MoGe-2,一种先进的开放域几何估计模型,能够从单张图像中恢复场景的具有度量尺度的3D点云图。我们的方法建立在最近的单目几何估计方法MoGe之上,MoGe预测具有未知尺度的仿射不变点云图。我们探索了有效的策略来扩展MoGe,以进行度量几何预测,同时不影响仿射不变点表示提供的相对几何精度。此外,我们发现真实数据中的噪声和误差会降低预测几何中的精细细节。为此,我们开发了一种统一的数据细化方法,该方法使用清晰的合成标签来过滤和补全来自不同来源的真实数据,从而在保持整体精度的同时,显著提高重建几何的粒度。我们使用大型混合数据集训练我们的模型,并进行了全面的评估,证明了其在实现精确的相对几何、精确的度量尺度和精细细节恢复方面的卓越性能——这是以前任何方法都无法同时实现的。

🔬 方法详解

问题定义:单目几何估计旨在从单张图像中恢复场景的3D结构。现有方法在恢复精确的相对几何、度量尺度以及精细细节方面存在挑战。特别是,真实数据中的噪声和误差会降低预测几何的精细程度,限制了其应用。

核心思路:MoGe-2的核心思路是在MoGe的基础上,通过有效的策略扩展其能力,使其能够预测具有度量尺度的几何信息,同时保持MoGe原有的相对几何精度。此外,通过数据细化方法,利用合成数据来提升真实数据的质量,从而改善重建几何的细节。

技术框架:MoGe-2的整体框架可以分为以下几个阶段:1) 使用MoGe预测仿射不变点云图;2) 引入机制预测度量尺度信息;3) 使用统一的数据细化方法,利用清晰的合成标签过滤和补全真实数据;4) 在混合数据集上训练模型。

关键创新:MoGe-2的关键创新在于:1) 提出了一种扩展MoGe以进行度量几何预测的有效策略,在不牺牲相对几何精度的前提下,实现了度量尺度的估计;2) 开发了一种统一的数据细化方法,能够有效地利用合成数据来提升真实数据的质量,从而改善重建几何的细节。

关键设计:数据细化方法是关键设计之一。该方法利用高质量的合成数据作为先验知识,对真实数据进行过滤和补全。具体的实现细节(例如,合成数据的生成方式、过滤和补全的策略、损失函数的设计等)在论文中应该有更详细的描述。(具体细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoGe-2在混合数据集上进行了全面的评估,实验结果表明,该模型在实现精确的相对几何、精确的度量尺度和精细细节恢复方面表现出色。与现有方法相比,MoGe-2能够显著提高重建几何的粒度,并获得更准确的3D结构。

🎯 应用场景

MoGe-2在机器人导航、增强现实、虚拟现实、三维重建等领域具有广泛的应用前景。精确的单目几何估计可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在AR/VR应用中,可以提供更逼真的场景重建和沉浸式体验。此外,该技术还可以用于城市建模、文物保护等领域。

📄 摘要(原文)

We propose MoGe-2, an advanced open-domain geometry estimation model that recovers a metric scale 3D point map of a scene from a single image. Our method builds upon the recent monocular geometry estimation approach, MoGe, which predicts affine-invariant point maps with unknown scales. We explore effective strategies to extend MoGe for metric geometry prediction without compromising the relative geometry accuracy provided by the affine-invariant point representation. Additionally, we discover that noise and errors in real data diminish fine-grained detail in the predicted geometry. We address this by developing a unified data refinement approach that filters and completes real data from different sources using sharp synthetic labels, significantly enhancing the granularity of the reconstructed geometry while maintaining the overall accuracy. We train our model on a large corpus of mixed datasets and conducted comprehensive evaluations, demonstrating its superior performance in achieving accurate relative geometry, precise metric scale, and fine-grained detail recovery -- capabilities that no previous methods have simultaneously achieved.