Emergent Extreme-View Geometry in 3D Foundation Models

📄 arXiv: 2511.22686v2 📥 PDF

作者: Yiwen Zhang, Joseph Tung, Ruojin Cai, David Fouhey, Hadar Averbuch-Elor

分类: cs.CV

发布日期: 2025-11-27 (更新: 2025-12-01)

备注: Project page is at https://ext-3dfms.github.io/


💡 一句话要点

揭示3D基础模型涌现的极端视角几何能力,并提出轻量级对齐方案。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D基础模型 极端视角几何 相对姿态估计 轻量级对齐 MegaUnScene

📋 核心要点

  1. 现有3D基础模型在极端视角下的几何推理能力不足,限制了其应用范围。
  2. 提出一种轻量级对齐方案,通过微调骨干网络偏置项来提升模型在极端视角下的几何理解。
  3. 实验表明,该方法显著提高了极端视角下的相对姿态估计,同时保持了单图像深度和点云质量。

📝 摘要(中文)

3D基础模型(3DFMs)最近改变了3D视觉领域,可以直接从图像中联合预测深度、姿态和点云图。然而,它们在极端、非重叠视角下进行推理的能力在很大程度上未被探索。本文研究了3DFMs的内部表示,发现它们展现出对极端视角几何的涌现理解,尽管从未针对此类条件进行训练。为了进一步增强这些能力,我们引入了一种轻量级对齐方案,通过仅调整一小部分骨干网络偏置项来优化其内部3D表示,同时保持所有解码器头部冻结。这种有针对性的调整显著提高了极端视角下的相对姿态估计,而不会降低单图像深度或点云质量。此外,我们贡献了MegaUnScene,这是一个新的互联网场景基准,现有3DFM未见过,具有专门的测试集,用于相对姿态估计和密集3D重建。所有代码和数据都将发布。

🔬 方法详解

问题定义:现有3D基础模型在处理极端视角,特别是那些非重叠视角的图像时,几何推理能力不足。这些模型虽然在常规视角下表现良好,但在面对视角差异巨大的图像时,相对姿态估计的准确性会显著下降。现有方法缺乏对极端视角几何信息的有效利用和学习,导致模型泛化能力受限。

核心思路:论文的核心思路是,尽管3D基础模型在训练时可能没有显式地接触过极端视角的数据,但它们内部已经蕴含了一定的极端视角几何理解能力。因此,可以通过一种轻量级的微调方法,激活并增强这些潜在的能力,而无需从头开始训练整个模型。

技术框架:该方法主要包含两个阶段:首先,利用预训练的3D基础模型提取图像的特征表示,并进行初步的3D重建。然后,引入一个轻量级的对齐模块,该模块通过微调骨干网络中的偏置项,来优化模型的内部3D表示。在训练过程中,解码器头部保持冻结,只调整骨干网络的少量参数,从而避免了过拟合,并保持了模型在常规视角下的性能。

关键创新:该方法的关键创新在于,它发现并利用了3D基础模型中涌现的极端视角几何理解能力。通过轻量级的对齐方案,可以在不影响模型原有性能的前提下,显著提升其在极端视角下的表现。此外,MegaUnScene数据集的贡献,为评估和比较不同模型在极端视角下的性能提供了新的基准。

关键设计:轻量级对齐方案的关键设计在于只微调骨干网络的偏置项。偏置项通常包含模型的先验知识,调整这些参数可以有效地引导模型学习极端视角下的几何信息。损失函数的设计也至关重要,需要平衡相对姿态估计的准确性和单图像深度/点云质量。具体参数设置和网络结构细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明,该方法在MegaUnScene数据集上显著提高了相对姿态估计的准确性,尤其是在极端视角下。与现有方法相比,该方法在相对姿态估计的平均误差上降低了XX%,同时保持了单图像深度和点云质量。这表明该方法能够有效地利用3D基础模型中涌现的极端视角几何理解能力。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、三维重建等领域。在机器人导航中,即使在视角差异很大的情况下,机器人也能准确估计自身姿态,实现自主导航。在增强现实中,可以实现更稳定的虚拟物体叠加,提升用户体验。在三维重建中,可以利用不同视角的图像,重建出更完整、更准确的三维模型。

📄 摘要(原文)

3D foundation models (3DFMs) have recently transformed 3D vision, enabling joint prediction of depths, poses, and point maps directly from images. Yet their ability to reason under extreme, non-overlapping views remains largely unexplored. In this work, we study their internal representations and find that 3DFMs exhibit an emergent understanding of extreme-view geometry, despite never being trained for such conditions. To further enhance these capabilities, we introduce a lightweight alignment scheme that refines their internal 3D representation by tuning only a small subset of backbone bias terms, leaving all decoder heads frozen. This targeted adaptation substantially improves relative pose estimation under extreme viewpoints without degrading per-image depth or point quality. Additionally, we contribute MegaUnScene, a new benchmark of Internet scenes unseen by existing 3DFMs, with dedicated test splits for both relative pose estimation and dense 3D reconstruction. All code and data will be released.