RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

📄 arXiv: 2605.31535v1 📥 PDF

作者: Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-29

备注: Project Page: https://compvis.github.io/rayder

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RayDer:提出可扩展的自监督新视角合成方法,适用于真实世界视频。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 自监督学习 Transformer 场景重建 相机姿态估计

📋 核心要点

  1. 现有自监督新视角合成方法难以扩展,主要原因是真实视频训练的脆弱性和多网络系统设计的复杂性。
  2. RayDer将相机估计、场景重建和渲染整合到单个Transformer骨干网络中,利用动态内容作为可扩展的监督信号。
  3. RayDer在多个基准测试中表现出良好的扩展性,并实现了与最先进的监督方法相媲美的零样本开放集性能。

📝 摘要(中文)

自监督新视角合成(NVS)虽然拥有丰富的视频数据,但由于在真实视频上训练的脆弱性以及多网络系统设计难以预测的扩展行为,其扩展性仍然面临挑战。我们提出了RayDer,一个统一的前馈Transformer,它将相机估计、场景重建和渲染整合到一个单一的骨干网络中,将自监督NVS转化为一个适定的单模型扩展问题。一个最小的动态状态,被视为一个干扰因素,吸收随时间变化的内容,并能够在不受约束的真实世界视频上进行稳定的训练。重要的是,RayDer保持静态场景NVS作为其目标任务:动态内容仅被用作可扩展的监督,而不是像动态场景(4D)NVS中那样被重建。在多个模型大小和多个数量级的数据上,RayDer表现出清晰的幂律缩放,优于静态场景数据混合。在大量基准测试中,RayDer实现了强大的零样本开放集性能,与最先进的监督方法相媲美。

🔬 方法详解

问题定义:现有自监督新视角合成方法在处理真实世界视频时,由于场景的复杂性和动态性,训练过程不稳定,难以扩展到大规模数据集。多网络系统设计使得模型扩展行为难以预测,阻碍了性能的进一步提升。

核心思路:RayDer的核心思路是将相机估计、场景重建和渲染整合到一个统一的Transformer骨干网络中,从而简化了模型结构,使其更易于训练和扩展。同时,将动态内容视为干扰因素,通过一个最小的动态状态来吸收,避免了对动态场景的显式建模,从而提高了训练的稳定性。

技术框架:RayDer采用一个统一的前馈Transformer架构,输入是多视角的图像序列,输出是新视角的图像。整个流程包括:1) 相机姿态估计模块,用于估计输入图像的相机姿态;2) 场景重建模块,用于重建静态场景的几何信息;3) 渲染模块,用于将重建的场景渲染成新视角的图像。动态状态模块用于吸收时间变化的内容,从而稳定训练过程。

关键创新:RayDer的关键创新在于将相机估计、场景重建和渲染整合到一个单一的Transformer骨干网络中,从而简化了模型结构,使其更易于训练和扩展。此外,将动态内容视为干扰因素,通过一个最小的动态状态来吸收,避免了对动态场景的显式建模,从而提高了训练的稳定性。

关键设计:RayDer采用Transformer架构作为其骨干网络,利用其强大的建模能力来处理多视角的图像序列。动态状态模块采用一个小的神经网络来学习时间变化的内容。损失函数包括图像重建损失和正则化损失,用于约束模型的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RayDer在多个基准测试中表现出良好的扩展性,并且在零样本开放集性能上与最先进的监督方法相媲美。具体来说,RayDer在多个数据集上取得了state-of-the-art的结果,并且在数据量和计算资源增加时,性能呈现出清晰的幂律缩放。

🎯 应用场景

RayDer具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实、增强现实等领域。它可以用于从真实世界的视频中生成任意视角的图像,从而为这些应用提供更丰富的视觉信息。此外,RayDer的自监督学习方法可以降低对标注数据的依赖,从而降低了应用成本。

📄 摘要(原文)

Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittleness of training on realistic videos and the hard-to-predict scaling behavior of multi-network system designs. We introduce RayDer, a unified, feed-forward transformer that consolidates camera estimation, scene reconstruction, and rendering into a single backbone, turning self-supervised NVS into a well-posed single-model scaling problem. A minimal dynamic state, treated as a nuisance factor, absorbs time-varying content and enables stable training on unconstrained real-world video. Importantly, RayDer keeps static-scene NVS as its target task: dynamic content is leveraged purely as scalable supervision, not reconstructed as in dynamic-scene (4D) NVS. Across multiple model sizes and orders of magnitude in data, RayDer exhibits clean power-law scaling with data and compute, and outperforms static-scene data mixtures. On a large number of benchmarks, RayDer achieves strong zero-shot open-set performance competitive with state-of-the-art supervised approaches. Project Page: https://compvis.github.io/rayder