From Rays to Projections: Better Inputs for Feed-Forward View Synthesis
作者: Zirui Wu, Zeren Jiang, Martin R. Oswald, Jie Song
分类: cs.CV
发布日期: 2026-01-08
备注: Project Page: https://wuzirui.github.io/pvsm-web
💡 一句话要点
提出基于投影变换的条件输入,提升前馈视角合成的几何一致性和鲁棒性
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 视角合成 前馈网络 几何一致性 投影变换 图像到图像转换
📋 核心要点
- 现有前馈视角合成方法依赖Plücker射线图编码相机参数,导致对相机微小变换敏感,几何一致性差。
- 论文提出使用目标视角的投影提示作为输入,将视角合成转化为图像到图像的转换问题,增强鲁棒性。
- 引入掩码自编码预训练策略,利用大规模未校准数据提升模型性能,并在多个基准测试中取得SOTA结果。
📝 摘要(中文)
本文提出了一种改进前馈视角合成模型输入的方法,旨在提高几何一致性和鲁棒性。现有方法使用Plücker射线图编码相机参数,这使得预测结果依赖于任意的世界坐标系,并且对微小的相机变换非常敏感,从而损害了几何一致性。本文提出使用目标视角的投影提示(projective cue)来替代原始相机参数,将任务从射线空间中脆弱的几何回归问题转化为条件良好的目标视角图像到图像的转换问题。此外,本文还引入了一种针对此提示的掩码自编码预训练策略,从而可以使用大规模的未校准数据进行预训练。实验结果表明,该方法在视角一致性基准测试中,相比于基于射线条件的方法,提高了保真度并增强了跨视角一致性,并在标准的novel view synthesis基准测试中实现了最先进的质量。
🔬 方法详解
问题定义:现有前馈视角合成模型依赖于将相机参数编码为Plücker射线图,直接回归目标视角图像。这种方法存在一个关键问题:Plücker坐标依赖于任意的世界坐标系,导致模型对相机参数的微小变化非常敏感,从而影响了几何一致性。此外,这种方法本质上是一个几何回归问题,容易受到噪声和不确定性的影响。
核心思路:本文的核心思路是将视角合成问题重新定义为一个条件图像生成问题。具体来说,不再直接使用相机参数作为输入,而是使用目标视角的投影提示(projective cue)。这个投影提示包含了目标视角的信息,使得模型能够学习从源图像到目标图像的转换,而无需显式地进行几何推理。这种方法将任务从一个脆弱的几何回归问题转化为一个更稳定的图像到图像的转换问题。
技术框架:整体框架包括两个主要部分:投影提示生成和图像生成网络。首先,根据源图像和目标相机的位姿信息,生成目标视角的投影提示。然后,将源图像和投影提示输入到图像生成网络中,生成目标视角的图像。图像生成网络可以采用各种现有的图像到图像转换架构,例如U-Net或Transformer。此外,为了利用大规模未校准数据,本文还引入了一种掩码自编码预训练策略。
关键创新:本文的关键创新在于使用投影提示作为条件输入,将视角合成问题转化为图像到图像的转换问题。与直接使用相机参数作为输入相比,投影提示提供了更稳定和鲁棒的条件信息,从而提高了模型的几何一致性和泛化能力。此外,掩码自编码预训练策略使得模型能够利用大规模未校准数据进行预训练,进一步提升了性能。
关键设计:投影提示是通过将源图像投影到目标视角来生成的。具体来说,首先将源图像的像素坐标转换为3D世界坐标,然后将这些3D点投影到目标相机的图像平面上。投影后的像素坐标和深度信息构成了投影提示。掩码自编码预训练策略通过随机掩盖投影提示的部分区域,并要求模型重建被掩盖的区域,从而学习到投影提示的内在结构和表示。
📊 实验亮点
实验结果表明,该方法在视角一致性基准测试中,相比于基于射线条件的方法,提高了保真度并增强了跨视角一致性。在标准的novel view synthesis基准测试中,该方法也取得了state-of-the-art的质量。具体而言,在某些数据集上,该方法相比于之前的最佳方法,在PSNR指标上提升了超过1dB。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在自动驾驶中,可以利用该方法合成不同视角的图像,从而提高感知系统的鲁棒性。在机器人导航中,可以利用该方法生成目标位置的图像,帮助机器人规划路径。在VR/AR中,可以利用该方法生成用户视角的图像,提供更沉浸式的体验。
📄 摘要(原文)
Feed-forward view synthesis models predict a novel view in a single pass with minimal 3D inductive bias. Existing works encode cameras as Plücker ray maps, which tie predictions to the arbitrary world coordinate gauge and make them sensitive to small camera transformations, thereby undermining geometric consistency. In this paper, we ask what inputs best condition a model for robust and consistent view synthesis. We propose projective conditioning, which replaces raw camera parameters with a target-view projective cue that provides a stable 2D input. This reframes the task from a brittle geometric regression problem in ray space to a well-conditioned target-view image-to-image translation problem. Additionally, we introduce a masked autoencoding pretraining strategy tailored to this cue, enabling the use of large-scale uncalibrated data for pretraining. Our method shows improved fidelity and stronger cross-view consistency compared to ray-conditioned baselines on our view-consistency benchmark. It also achieves state-of-the-art quality on standard novel view synthesis benchmarks.