Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos
作者: Ruoyu Wang, Yi Ma, Shenghua Gao
分类: cs.CV
发布日期: 2025-05-19
备注: 13 pages, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出Pensieve,通过无标定视频学习实现高质量新视角合成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 无标定视频 自监督学习 3D高斯溅射 隐式表示 相机姿态估计 深度学习
📋 核心要点
- 现有新视角合成方法依赖标定相机或几何先验,限制了其在无标定数据上的应用。
- 提出两阶段训练策略,先隐式重建场景,再显式预测3D高斯基元,实现自监督学习。
- 实验表明,该方法在无标定视频上实现了高质量的新视角合成和准确的相机姿态估计。
📝 摘要(中文)
目前,几乎所有先进的新视角合成和重建模型都依赖于标定相机或额外的几何先验进行训练。这些先决条件严重限制了它们在海量未标定数据上的适用性。为了缓解这一要求,并释放大规模未标定视频上自监督训练的潜力,我们提出了一种新颖的两阶段策略,仅从原始视频帧或多视角图像训练视角合成模型,无需提供相机参数或其他先验。在第一阶段,我们学习在潜在空间中隐式地重建场景,而不依赖于任何显式的3D表示。具体来说,我们预测每帧的潜在相机和场景上下文特征,并采用视角合成模型作为显式渲染的代理。这个预训练阶段大大降低了优化复杂度,并鼓励网络以自监督的方式学习潜在的3D一致性。学习到的潜在相机和隐式场景表示与真实的3D世界相比存在很大的差距。为了缩小这个差距,我们引入了第二阶段的训练,通过显式地预测3D高斯基元。我们还应用显式的高斯溅射渲染损失和深度投影损失,以将学习到的潜在表示与物理上真实的3D几何对齐。通过这种方式,第一阶段提供了一个强大的初始化,第二阶段强制执行3D一致性——这两个阶段是互补且互利的。大量的实验证明了我们方法的有效性,与使用标定、姿态或深度信息进行监督的方法相比,实现了高质量的新视角合成和准确的相机姿态估计。
🔬 方法详解
问题定义:现有新视角合成方法严重依赖标定相机参数或额外的几何先验信息,这限制了它们在实际应用中的范围,尤其是在处理大规模未标定视频数据时。获取精确的相机参数和几何先验往往成本高昂,且难以推广到各种场景。因此,如何在没有相机标定信息的情况下,仅利用原始视频帧进行高质量的新视角合成是一个重要的挑战。
核心思路:该论文的核心思路是通过一个两阶段的训练策略,逐步地学习场景的3D结构和相机姿态,从而实现从无标定视频中进行新视角合成。第一阶段通过隐式表示学习场景的潜在特征,第二阶段通过显式的3D高斯基元来对齐潜在表示与物理世界的几何结构。这种分阶段的方法能够有效地降低优化难度,并促进网络学习潜在的3D一致性。
技术框架:该方法包含两个主要阶段: 1. 第一阶段:隐式场景重建。该阶段的目标是学习一个潜在空间,其中包含每帧的潜在相机和场景上下文特征。通过一个视角合成模型,将这些潜在特征渲染成图像,并与原始图像进行比较,从而实现自监督学习。 2. 第二阶段:显式3D对齐。该阶段的目标是将第一阶段学习到的潜在表示与真实的3D几何结构对齐。通过显式地预测3D高斯基元,并使用高斯溅射渲染损失和深度投影损失,来强制网络学习具有物理意义的3D表示。
关键创新:该论文的关键创新在于提出了一种无需相机标定信息,仅从原始视频帧中学习新视角合成的方法。通过两阶段的训练策略,有效地结合了隐式表示和显式3D表示的优点,从而实现了高质量的新视角合成。与现有方法相比,该方法具有更强的泛化能力和更广泛的应用前景。
关键设计: * 潜在相机和场景上下文特征:使用神经网络预测每帧的潜在相机和场景上下文特征,这些特征包含了场景的几何信息和外观信息。 * 高斯溅射渲染损失:使用高斯溅射渲染技术,将3D高斯基元渲染成图像,并与原始图像进行比较,从而实现对3D结构的约束。 * 深度投影损失:将3D高斯基元投影到图像平面上,并与预测的深度图进行比较,从而实现对深度信息的约束。
🖼️ 关键图片
📊 实验亮点
该方法在无标定视频上实现了高质量的新视角合成,与需要标定信息的方法相比,在合成质量和相机姿态估计精度上都取得了显著的提升。具体性能数据和对比基线在论文中有详细展示,证明了该方法在自监督新视角合成方面的有效性。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。无需预先标定相机,即可利用普通视频数据生成高质量的3D场景模型和新视角图像,降低了应用门槛和成本,具有重要的实际应用价值和广阔的市场前景。未来可进一步探索在动态场景和复杂光照条件下的应用。
📄 摘要(原文)
Currently almost all state-of-the-art novel view synthesis and reconstruction models rely on calibrated cameras or additional geometric priors for training. These prerequisites significantly limit their applicability to massive uncalibrated data. To alleviate this requirement and unlock the potential for self-supervised training on large-scale uncalibrated videos, we propose a novel two-stage strategy to train a view synthesis model from only raw video frames or multi-view images, without providing camera parameters or other priors. In the first stage, we learn to reconstruct the scene implicitly in a latent space without relying on any explicit 3D representation. Specifically, we predict per-frame latent camera and scene context features, and employ a view synthesis model as a proxy for explicit rendering. This pretraining stage substantially reduces the optimization complexity and encourages the network to learn the underlying 3D consistency in a self-supervised manner. The learned latent camera and implicit scene representation have a large gap compared with the real 3D world. To reduce this gap, we introduce the second stage training by explicitly predicting 3D Gaussian primitives. We additionally apply explicit Gaussian Splatting rendering loss and depth projection loss to align the learned latent representations with physically grounded 3D geometry. In this way, Stage 1 provides a strong initialization and Stage 2 enforces 3D consistency - the two stages are complementary and mutually beneficial. Extensive experiments demonstrate the effectiveness of our approach, achieving high-quality novel view synthesis and accurate camera pose estimation, compared to methods that employ supervision with calibration, pose, or depth information. The code is available at https://github.com/Dwawayu/Pensieve.