One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
作者: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
分类: cs.CV
发布日期: 2026-03-24
备注: 34 pages, 16 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出OVIE,仅用单视角图像训练,实现野外场景的新视角生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 单目视觉 深度估计 无监督学习 图像生成
📋 核心要点
- 现有单目新视角合成方法依赖多视角图像对,限制了训练数据的规模和多样性。
- OVIE利用单目深度估计器作为几何支架,通过3D变换和投影生成伪目标视角进行训练。
- OVIE在野外图像上训练,零样本设置下优于现有方法,且推理速度提升显著。
📝 摘要(中文)
单目新视角合成长期以来需要多视角图像对进行监督,限制了训练数据的规模和多样性。本文提出,单视角图像足矣。我们提出了OVIE,完全在无配对的互联网图像上进行训练。我们在训练时利用单目深度估计器作为几何支架:将源图像提升到3D空间,应用采样的相机变换,并投影以获得伪目标视角。为了处理遮挡,我们引入了一种掩码训练公式,将几何、感知和纹理损失限制在有效区域,从而能够在3000万张未经整理的图像上进行训练。在推理时,OVIE是无几何的,不需要深度估计器或3D表示。OVIE完全在野外图像上训练,在零样本设置中优于现有方法,同时比第二好的基线快600倍。代码和模型可在https://github.com/AdrienRR/ovie公开获取。
🔬 方法详解
问题定义:论文旨在解决单目图像新视角生成问题。现有方法主要依赖多视角图像对进行监督训练,这限制了训练数据的规模和多样性,难以泛化到真实世界的复杂场景。因此,如何仅利用单视角图像进行训练,并实现高质量的新视角合成,是本文要解决的核心问题。
核心思路:论文的核心思路是利用单目深度估计器作为几何先验,为单视角图像生成伪目标视角。具体来说,首先使用深度估计器将源图像提升到3D空间,然后应用随机采样的相机变换,最后将变换后的3D点云投影回2D图像,得到伪目标视角。通过这种方式,可以仅利用单视角图像生成训练数据,从而避免了对多视角图像对的依赖。
技术框架:OVIE的训练框架主要包含以下几个模块:1) 单目深度估计器:用于估计源图像的深度图;2) 3D变换模块:将源图像提升到3D空间,并应用随机采样的相机变换;3) 投影模块:将变换后的3D点云投影回2D图像,得到伪目标视角;4) 图像生成器:用于生成新视角图像;5) 损失函数:包括几何损失、感知损失和纹理损失,用于约束生成的新视角图像与伪目标视角的一致性。在推理阶段,OVIE只需要图像生成器,无需深度估计器或3D表示。
关键创新:OVIE的关键创新在于:1) 提出了仅使用单视角图像进行新视角合成训练的方法,突破了对多视角图像对的依赖;2) 引入了掩码训练公式,有效处理了遮挡问题,提高了训练的鲁棒性;3) 在推理阶段,OVIE是无几何的,无需深度估计器或3D表示,降低了计算复杂度。
关键设计:OVIE的关键设计包括:1) 使用预训练的单目深度估计器作为几何先验;2) 随机采样相机变换,增加训练数据的多样性;3) 引入掩码训练公式,仅在有效区域计算损失;4) 使用几何损失、感知损失和纹理损失,综合约束生成的新视角图像的质量;5) 图像生成器采用U-Net结构,能够有效捕捉图像的全局和局部信息。
📊 实验亮点
OVIE在零样本新视角合成任务上取得了显著的性能提升。在未经整理的互联网图像数据集上进行训练后,OVIE在多个benchmark上优于现有的方法。尤其是在速度方面,OVIE比第二好的基线快600倍,这使得OVIE更适合于实时应用。
🎯 应用场景
OVIE具有广泛的应用前景,例如:虚拟现实/增强现实(VR/AR)、自动驾驶、机器人导航、游戏开发等。该方法能够仅利用单张图像生成任意视角下的图像,为用户提供更加沉浸式的体验。此外,OVIE还可以用于图像编辑、三维重建等领域,具有重要的实际应用价值和商业潜力。
📄 摘要(原文)
Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.