MoRe: Monocular Geometry Refinement via Graph Optimization for Cross-View Consistency

📄 arXiv: 2510.07119v2 📥 PDF

作者: Dongki Jung, Jaehoon Choi, Yonghan Lee, Sungmin Eum, Heesung Kwon, Dinesh Manocha

分类: cs.CV

发布日期: 2025-10-08 (更新: 2025-11-27)


💡 一句话要点

提出MoRe,通过图优化单目几何体,提升跨视角一致性和尺度对齐。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目视觉 3D重建 图优化 跨视角一致性 尺度对齐 新视角合成 局部平面近似

📋 核心要点

  1. 单目3D基础模型在感知任务中具有扩展性优势,但其跨视角一致性和尺度对齐仍面临挑战。
  2. MoRe通过图优化框架,结合帧间特征匹配和局部平面近似,有效提升跨视角一致性并解决尺度模糊问题。
  3. 实验表明,MoRe在3D重建和新视角合成方面均有显著提升,尤其在稀疏视角渲染场景中表现突出。

📝 摘要(中文)

本文提出了一种名为MoRe的免训练单目几何体优化方法,旨在提升跨视角一致性并实现尺度对齐,从而增强单目3D基础模型在感知任务中的性能。该方法通过帧间特征匹配建立对应关系,并构建基于图优化的框架,利用单目基础模型估计的3D点和表面法线进行局部平面近似。这种方法在保留底层3D结构的同时,解决了单目几何先验中固有的尺度模糊问题。实验结果表明,MoRe不仅增强了3D重建效果,还改善了新视角合成,尤其是在稀疏视角渲染场景中。

🔬 方法详解

问题定义:单目3D重建和新视角合成任务中,单目深度估计存在尺度模糊问题,导致跨视角一致性较差。现有方法难以有效利用单目几何先验信息,同时保持场景的整体结构。

核心思路:利用多帧图像之间的几何一致性约束,通过图优化框架对单目深度估计结果进行优化。核心思想是利用局部平面近似来约束3D点的位置和法线方向,从而在保持场景结构的同时,解决尺度模糊问题。

技术框架:MoRe方法主要包含以下几个阶段:1) 帧间特征匹配:利用SIFT等特征提取算法在不同帧之间建立对应关系。2) 初始3D点云估计:使用单目深度估计模型(如DPT)估计每帧图像的深度图,并将其转换为3D点云。3) 图优化:构建图结构,节点表示3D点,边表示点之间的几何关系(如共面性)。利用局部平面近似约束,优化3D点的位置和法线方向,最小化重投影误差和平面拟合误差。4) 尺度对齐:通过优化后的3D点云进行尺度对齐。

关键创新:MoRe的关键创新在于将局部平面近似引入到图优化框架中,用于约束单目深度估计结果。与传统的基于点的优化方法相比,MoRe能够更好地利用场景的结构信息,从而更有效地解决尺度模糊问题,并提升跨视角一致性。此外,MoRe是一种免训练的方法,可以直接应用于各种单目深度估计模型。

关键设计:图优化框架中,损失函数主要包含两部分:重投影误差和平面拟合误差。重投影误差衡量优化后的3D点在原始图像中的投影位置与特征点位置的差异。平面拟合误差衡量3D点与其局部平面之间的距离。局部平面通过最小二乘法拟合得到。优化算法采用Levenberg-Marquardt算法。参数设置方面,需要调整重投影误差和平面拟合误差的权重,以平衡两者之间的影响。

📊 实验亮点

MoRe在3D重建和新视角合成任务中均取得了显著提升。在ScanNet数据集上,MoRe显著提高了跨视角一致性,并降低了重建误差。与直接使用单目深度估计结果相比,MoRe在稀疏视角渲染场景中,显著提升了图像质量,减少了伪影。

🎯 应用场景

MoRe可应用于增强现实、机器人导航、自动驾驶等领域。通过提升单目视觉系统的3D重建精度和跨视角一致性,可以提高这些应用在复杂环境中的鲁棒性和准确性。该方法无需训练,易于部署,具有广泛的应用前景。

📄 摘要(原文)

Monocular 3D foundation models offer an extensible solution for perception tasks, making them attractive for broader 3D vision applications. In this paper, we propose MoRe, a training-free Monocular Geometry Refinement method designed to improve cross-view consistency and achieve scale alignment. To induce inter-frame relationships, our method employs feature matching between frames to establish correspondences. Rather than applying simple least squares optimization on these matched points, we formulate a graph-based optimization framework that performs local planar approximation using the estimated 3D points and surface normals estimated by monocular foundation models. This formulation addresses the scale ambiguity inherent in monocular geometric priors while preserving the underlying 3D structure. We further demonstrate that MoRe not only enhances 3D reconstruction but also improves novel view synthesis, particularly in sparse view rendering scenarios.