Generic Objects as Pose Probes for Few-shot View Synthesis

📄 arXiv: 2408.16690v4 📥 PDF

作者: Zhirui Gao, Renjiao Yi, Chenyang Zhu, Ke Zhuang, Wei Chen, Kai Xu

分类: cs.CV

发布日期: 2024-08-29 (更新: 2025-04-29)

备注: Accepted by IEEE TCSVT 2025 Project page: https://zhirui-gao.github.io/PoseProbe.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PoseProbe,利用常见物体作为位姿探针,解决少视角NeRF重建问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: NeRF 位姿估计 少视角重建 新视角合成 体渲染 场景重建 位姿探针

📋 核心要点

  1. 传统NeRF重建依赖大量带位姿图像,COLMAP在特征稀疏场景失效,少视角重建面临挑战。
  2. 提出PoseProbe,利用场景中常见物体作为位姿探针,辅助位姿估计和NeRF重建。
  3. 实验表明,PoseProbe在少视角和宽基线场景下优于现有方法,位姿估计和新视角合成效果显著。

📝 摘要(中文)

本文提出了一种新颖的方法PoseProbe,旨在解决仅使用3到6张未定位的场景图像进行少视角NeRF重建的问题。现有方法依赖COLMAP进行位姿估计,但COLMAP在特征稀疏、图像间基线较大或输入图像数量有限的场景中表现不佳。PoseProbe的核心思想是利用图像和现实生活中常见的日常物体作为“位姿探针”。该方法首先使用SAM自动分割探针物体,并从立方体初始化其形状。然后,应用双分支体渲染优化(物体NeRF和场景NeRF)来约束位姿优化并联合细化几何体。具体而言,首先通过SDF表示中的PnP匹配估计两个视角的物体位姿,作为初始位姿。后续视角被增量式地纳入,以细化先前视角的位姿。实验结果表明,PoseProbe在多个数据集上的位姿估计和新视角合成方面均达到了最先进的性能,尤其是在COLMAP难以处理的少视角和大基线场景中。消融实验表明,使用场景中不同的物体可以获得相当的性能。

🔬 方法详解

问题定义:现有NeRF方法需要大量带有精确位姿的图像作为输入,而COLMAP等传统位姿估计方法在图像数量少、特征稀疏或图像间基线较大的场景中表现不佳,导致少视角NeRF重建效果不理想。因此,如何仅使用少量未定位的图像进行高质量的NeRF重建是一个关键问题。

核心思路:论文的核心思路是利用场景中常见的物体作为“位姿探针”,通过对这些物体的位姿进行估计,来辅助整个场景的位姿估计和NeRF重建。这种方法避免了对整个场景进行特征匹配的困难,转而关注更容易检测和建模的特定物体。

技术框架:PoseProbe方法包含以下主要步骤:1) 使用SAM自动分割图像中的探针物体;2) 从一个立方体初始化探针物体的形状;3) 使用双分支体渲染优化,包括物体NeRF和场景NeRF,以约束位姿优化和联合细化几何体;4) 使用SDF表示和PnP匹配,估计两个视角的物体位姿作为初始位姿;5) 增量式地加入更多视角,并细化之前的位姿。

关键创新:该方法最重要的创新点在于将场景中常见的物体作为位姿探针,从而将复杂的场景位姿估计问题分解为更易于处理的物体位姿估计问题。与传统方法依赖大量特征匹配不同,PoseProbe只需要少量特征即可进行PnP匹配,更适用于特征稀疏的场景。

关键设计:双分支NeRF优化是关键设计之一,它同时优化物体NeRF和场景NeRF,从而实现位姿估计和几何体细化的联合优化。此外,使用SDF表示进行PnP匹配,以及增量式地加入更多视角并细化位姿,也是提高位姿估计精度的重要设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PoseProbe在多个数据集上实现了最先进的位姿估计和新视角合成性能。尤其是在少视角和大基线场景下,PoseProbe显著优于COLMAP等传统方法。例如,在某些数据集上,PoseProbe的位姿估计精度比COLMAP提高了XX%,新视角合成的PSNR值提高了YY%。消融实验还表明,使用不同的物体作为位姿探针可以获得相当的性能。

🎯 应用场景

PoseProbe在机器人导航、增强现实、虚拟现实等领域具有广泛的应用前景。例如,在机器人导航中,可以利用场景中的常见物体作为路标,帮助机器人进行定位和导航。在增强现实和虚拟现实中,可以利用该方法快速重建场景,并实现高质量的渲染。

📄 摘要(原文)

Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as "pose probes". The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance. Our project page is available at: \href{https://zhirui-gao.github.io/PoseProbe.github.io/}{this https URL}