PanoSplatt3R: Leveraging Perspective Pretraining for Generalized Unposed Wide-Baseline Panorama Reconstruction

📄 arXiv: 2507.21960v1 📥 PDF

作者: Jiahui Ren, Mochu Xiang, Jiajun Zhu, Yuchao Dai

分类: cs.CV

发布日期: 2025-07-29

备注: Accepted to ICCV 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PanoSplatt3R以解决无姿态广基线全景重建问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 全景重建 无姿态重建 深度估计 计算机视觉 3D重建 RoPE机制 泛化能力

📋 核心要点

  1. 现有的广基线全景重建方法依赖于准确的姿态信息,这在实际应用中难以获取且易受噪声影响。
  2. PanoSplatt3R通过将视角预训练扩展到全景领域,提出了一种无姿态重建的方法,增强了模型的泛化能力。
  3. 实验结果显示,PanoSplatt3R在缺乏姿态信息的情况下,生成的新视图质量和深度估计准确性显著优于现有方法。

📝 摘要(中文)

广基线全景重建是一种有效的3D环境几何重建方法,能够生成高度真实的视图。然而,现有方法通常依赖于准确的姿态信息,这在实际应用中受到噪声影响且计算资源消耗较大。为此,本文提出了PanoSplatt3R,一种无姿态广基线全景重建方法,通过将视角领域的重建预训练扩展到全景领域,增强了模型的泛化能力。我们引入了RoPE滚动机制,以最小的修改保持RoPE的机制,同时建模全景图像的水平周期性。实验结果表明,PanoSplatt3R在缺乏姿态信息的情况下,显著优于当前最先进的方法,尤其在生成高质量新视图和深度估计的准确性方面,展示了其在实际应用中的巨大潜力。

🔬 方法详解

问题定义:本文旨在解决广基线全景重建中对准确姿态信息的依赖问题。现有方法在实际应用中面临姿态获取困难和噪声影响的挑战,限制了其广泛适用性。

核心思路:PanoSplatt3R的核心思路是将视角领域的重建预训练技术迁移到全景领域,从而实现无姿态的广基线全景重建。通过这种方式,模型能够在缺乏姿态信息的情况下,依然保持良好的重建性能。

技术框架:该方法的整体架构包括预训练阶段和重建阶段。在预训练阶段,模型通过大量视角数据进行训练,以学习有效的特征表示;在重建阶段,利用RoPE滚动机制处理全景图像,确保模型能够捕捉到图像的水平周期性。

关键创新:PanoSplatt3R的关键创新在于引入RoPE滚动机制,该机制在不同的注意力头中跨越卷积坐标,保持了RoPE的基本机制,同时有效建模全景图像的特性。这一设计使得模型在无姿态条件下依然能够实现高质量的重建。

关键设计:在模型设计中,RoPE的参数设置经过精心调整,以适应全景图像的周期性特征。此外,损失函数的设计也考虑了重建质量和深度估计的准确性,确保模型在训练过程中能够优化这两个目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PanoSplatt3R在缺乏姿态信息的情况下,生成的新视图质量比现有最先进的方法提高了显著的性能,深度估计的准确性也得到了显著提升,展示了其在实际应用中的优越性。

🎯 应用场景

PanoSplatt3R在虚拟现实、增强现实和3D地图构建等领域具有广泛的应用潜力。其无姿态重建的能力使得在复杂环境中进行3D重建变得更加高效和实用,降低了对姿态信息的依赖,提升了实际应用的可行性和灵活性。未来,该技术有望推动更多基于全景图像的应用场景的发展。

📄 摘要(原文)

Wide-baseline panorama reconstruction has emerged as a highly effective and pivotal approach for not only achieving geometric reconstruction of the surrounding 3D environment, but also generating highly realistic and immersive novel views. Although existing methods have shown remarkable performance across various benchmarks, they are predominantly reliant on accurate pose information. In real-world scenarios, the acquisition of precise pose often requires additional computational resources and is highly susceptible to noise. These limitations hinder the broad applicability and practicality of such methods. In this paper, we present PanoSplatt3R, an unposed wide-baseline panorama reconstruction method. We extend and adapt the foundational reconstruction pretrainings from the perspective domain to the panoramic domain, thus enabling powerful generalization capabilities. To ensure a seamless and efficient domain-transfer process, we introduce RoPE rolling that spans rolled coordinates in rotary positional embeddings across different attention heads, maintaining a minimal modification to RoPE's mechanism, while modeling the horizontal periodicity of panorama images. Comprehensive experiments demonstrate that PanoSplatt3R, even in the absence of pose information, significantly outperforms current state-of-the-art methods. This superiority is evident in both the generation of high-quality novel views and the accuracy of depth estimation, thereby showcasing its great potential for practical applications. Project page: https://npucvr.github.io/PanoSplatt3R