PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis

📄 arXiv: 2510.19527v1 📥 PDF

作者: Qing Mao, Tianxin Huang, Yu Zhu, Jinqiu Sun, Yanning Zhang, Gim Hee Lee

分类: cs.CV

发布日期: 2025-10-22

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)


💡 一句话要点

PoseCrafter:利用混合视频合成增强极端位姿估计

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 位姿估计 视频合成 新视角合成 特征匹配 三维重建

📋 核心要点

  1. 现有方法在稀疏重叠或无重叠图像对的位姿估计中面临挑战,生成的中间帧模糊,选择策略效率低。
  2. 提出混合视频生成(HVG)框架,结合视频插值和位姿条件的新视角合成,生成更清晰的中间帧。
  3. 实验表明,PoseCrafter在多个数据集上显著提升了位姿估计性能,尤其是在低重叠场景下。

📝 摘要(中文)

在三维视觉中,从稀疏重叠图像对中进行成对相机位姿估计仍然是一个关键且未解决的挑战。现有方法在处理重叠小或无重叠的图像对时表现不佳。最近的方法试图通过使用视频插值合成中间帧,并通过自洽性得分选择关键帧来解决这个问题。然而,由于小重叠输入,生成的帧通常是模糊的,并且选择策略速度慢且未与位姿估计显式对齐。为了解决这些情况,我们提出了混合视频生成(HVG),通过将视频插值模型与位姿条件的新视角合成模型相结合来合成更清晰的中间帧,同时我们还提出了基于特征对应关系的特征匹配选择器(FMS),用于从合成结果中选择适合位姿估计的中间帧。在Cambridge Landmarks、ScanNet、DL3DV-10K和NAVI上的大量实验表明,与现有的SOTA方法相比,PoseCrafter可以显著提高位姿估计性能,尤其是在重叠小或无重叠的示例上。

🔬 方法详解

问题定义:论文旨在解决从稀疏重叠图像对中进行精确相机位姿估计的问题。现有方法在处理此类图像对时,由于缺乏足够的视觉信息,导致位姿估计精度显著下降。现有的视频插值方法生成的中间帧通常模糊不清,无法有效辅助位姿估计。此外,现有的关键帧选择策略效率较低,且与位姿估计任务的关联性不强。

核心思路:论文的核心思路是利用混合视频生成(HVG)来合成高质量的中间帧,从而弥补稀疏重叠图像对之间的视觉信息缺失。HVG结合了视频插值和位姿条件的新视角合成,旨在生成更清晰、更适合位姿估计的中间帧。此外,论文还提出了特征匹配选择器(FMS),用于从合成的中间帧中选择最有利于位姿估计的帧。

技术框架:PoseCrafter的整体框架包含以下几个主要模块:1) 视频插值模块:用于生成初始的中间帧;2) 位姿条件的新视角合成模块:利用估计的位姿信息,进一步优化中间帧的质量;3) 混合视频生成(HVG)模块:将视频插值和新视角合成的结果进行融合,生成最终的中间帧;4) 特征匹配选择器(FMS):基于特征对应关系,选择最适合位姿估计的中间帧;5) 位姿估计模块:利用原始图像对和选择的中间帧,进行最终的位姿估计。

关键创新:论文的关键创新在于提出了混合视频生成(HVG)框架和特征匹配选择器(FMS)。HVG通过结合视频插值和位姿条件的新视角合成,有效地提高了中间帧的质量,使其更适合位姿估计任务。FMS则通过特征对应关系,实现了对中间帧的有效选择,进一步提升了位姿估计的精度。与现有方法相比,HVG和FMS能够更好地处理稀疏重叠图像对,从而显著提高位姿估计的性能。

关键设计:HVG的关键设计在于如何有效地融合视频插值和新视角合成的结果。论文可能采用了加权平均或其他融合策略,以平衡两种方法的优点。FMS的关键设计在于如何定义特征对应关系,以及如何利用这些对应关系来选择最佳的中间帧。具体的损失函数、网络结构和参数设置等技术细节未知,需要查阅论文原文。

📊 实验亮点

实验结果表明,PoseCrafter在Cambridge Landmarks、ScanNet、DL3DV-10K和NAVI等数据集上均取得了显著的性能提升,尤其是在处理小重叠或无重叠图像对时。与现有SOTA方法相比,PoseCrafter在位姿估计精度方面有明显优势,证明了HVG和FMS的有效性。

🎯 应用场景

该研究成果可广泛应用于三维重建、视觉定位、增强现实、机器人导航等领域。尤其是在缺乏足够视觉信息的场景下,例如在光照条件差、遮挡严重或视点变化大的环境中,PoseCrafter能够显著提高位姿估计的精度和鲁棒性,从而为相关应用提供更可靠的基础。

📄 摘要(原文)

Pairwise camera pose estimation from sparsely overlapping image pairs remains a critical and unsolved challenge in 3D vision. Most existing methods struggle with image pairs that have small or no overlap. Recent approaches attempt to address this by synthesizing intermediate frames using video interpolation and selecting key frames via a self-consistency score. However, the generated frames are often blurry due to small overlap inputs, and the selection strategies are slow and not explicitly aligned with pose estimation. To solve these cases, we propose Hybrid Video Generation (HVG) to synthesize clearer intermediate frames by coupling a video interpolation model with a pose-conditioned novel view synthesis model, where we also propose a Feature Matching Selector (FMS) based on feature correspondence to select intermediate frames appropriate for pose estimation from the synthesized results. Extensive experiments on Cambridge Landmarks, ScanNet, DL3DV-10K, and NAVI demonstrate that, compared to existing SOTA methods, PoseCrafter can obviously enhance the pose estimation performances, especially on examples with small or no overlap.