One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

作者: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard

分类: cs.CV

发布日期: 2026-03-24

备注: 34 pages, 16 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出OVIE，仅用单视角图像训练，实现野外场景的新视角生成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 单目视觉 深度估计 无监督学习 图像生成

📋 核心要点

现有单目新视角合成方法依赖多视角图像对，限制了训练数据的规模和多样性。
OVIE利用单目深度估计器作为几何支架，通过3D变换和投影生成伪目标视角进行训练。
OVIE在野外图像上训练，零样本设置下优于现有方法，且推理速度提升显著。

📝 摘要（中文）

单目新视角合成长期以来需要多视角图像对进行监督，限制了训练数据的规模和多样性。本文提出，单视角图像足矣。我们提出了OVIE，完全在无配对的互联网图像上进行训练。我们在训练时利用单目深度估计器作为几何支架：将源图像提升到3D空间，应用采样的相机变换，并投影以获得伪目标视角。为了处理遮挡，我们引入了一种掩码训练公式，将几何、感知和纹理损失限制在有效区域，从而能够在3000万张未经整理的图像上进行训练。在推理时，OVIE是无几何的，不需要深度估计器或3D表示。OVIE完全在野外图像上训练，在零样本设置中优于现有方法，同时比第二好的基线快600倍。代码和模型可在https://github.com/AdrienRR/ovie公开获取。

🔬 方法详解

问题定义：论文旨在解决单目图像新视角生成问题。现有方法主要依赖多视角图像对进行监督训练，这限制了训练数据的规模和多样性，难以泛化到真实世界的复杂场景。因此，如何仅利用单视角图像进行训练，并实现高质量的新视角合成，是本文要解决的核心问题。

核心思路：论文的核心思路是利用单目深度估计器作为几何先验，为单视角图像生成伪目标视角。具体来说，首先使用深度估计器将源图像提升到3D空间，然后应用随机采样的相机变换，最后将变换后的3D点云投影回2D图像，得到伪目标视角。通过这种方式，可以仅利用单视角图像生成训练数据，从而避免了对多视角图像对的依赖。

技术框架：OVIE的训练框架主要包含以下几个模块：1) 单目深度估计器：用于估计源图像的深度图；2) 3D变换模块：将源图像提升到3D空间，并应用随机采样的相机变换；3) 投影模块：将变换后的3D点云投影回2D图像，得到伪目标视角；4) 图像生成器：用于生成新视角图像；5) 损失函数：包括几何损失、感知损失和纹理损失，用于约束生成的新视角图像与伪目标视角的一致性。在推理阶段，OVIE只需要图像生成器，无需深度估计器或3D表示。

关键创新：OVIE的关键创新在于：1) 提出了仅使用单视角图像进行新视角合成训练的方法，突破了对多视角图像对的依赖；2) 引入了掩码训练公式，有效处理了遮挡问题，提高了训练的鲁棒性；3) 在推理阶段，OVIE是无几何的，无需深度估计器或3D表示，降低了计算复杂度。

关键设计：OVIE的关键设计包括：1) 使用预训练的单目深度估计器作为几何先验；2) 随机采样相机变换，增加训练数据的多样性；3) 引入掩码训练公式，仅在有效区域计算损失；4) 使用几何损失、感知损失和纹理损失，综合约束生成的新视角图像的质量；5) 图像生成器采用U-Net结构，能够有效捕捉图像的全局和局部信息。

📊 实验亮点

OVIE在零样本新视角合成任务上取得了显著的性能提升。在未经整理的互联网图像数据集上进行训练后，OVIE在多个benchmark上优于现有的方法。尤其是在速度方面，OVIE比第二好的基线快600倍，这使得OVIE更适合于实时应用。

🎯 应用场景

OVIE具有广泛的应用前景，例如：虚拟现实/增强现实(VR/AR)、自动驾驶、机器人导航、游戏开发等。该方法能够仅利用单张图像生成任意视角下的图像，为用户提供更加沉浸式的体验。此外，OVIE还可以用于图像编辑、三维重建等领域，具有重要的实际应用价值和商业潜力。

📄 摘要（原文）

Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理