OrbitNVS: Harnessing Video Diffusion Priors for Novel View Synthesis
作者: Jinglin Liang, Zijian Zhou, Rui Huang, Shuangping Huang, Yichen Gong
分类: cs.CV
发布日期: 2026-03-20
备注: 26 pages, 10 figures
💡 一句话要点
OrbitNVS:利用视频扩散先验实现高质量新视角合成
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 新视角合成 视频扩散模型 视觉先验 几何一致性 外观一致性 单视角重建 相机控制
📋 核心要点
- 现有新视角合成方法在单视角输入下,难以生成未观测区域的合理视角,且几何和外观一致性难以保证。
- OrbitNVS将新视角合成转化为轨道视频生成任务,利用预训练视频生成模型的视觉先验,并引入相机适配器实现精确相机控制。
- 通过法线贴图引导和像素空间监督,OrbitNVS在GSO和OmniObject3D数据集上显著优于现有方法,尤其在单视角情况下提升明显。
📝 摘要(中文)
新视角合成(NVS)旨在给定有限数量的已知视角下生成3D对象未见过的视角。现有方法通常难以合成未观测区域的合理视角,尤其是在单视角输入下,并且在保持几何和外观一致性方面仍然面临挑战。为了解决这些问题,我们提出了OrbitNVS,它将NVS重新定义为轨道视频生成任务。通过定制的模型设计和训练策略,我们将预训练的视频生成模型适配到NVS任务中,利用其丰富的视觉先验来实现高质量的视角合成。具体来说,我们将相机适配器集成到视频模型中,以实现精确的相机控制。为了增强3D对象的两个关键属性,几何和外观,我们设计了一个法线贴图生成分支,并使用法线贴图特征通过注意力机制来指导目标视角的合成,从而提高了几何一致性。此外,我们应用像素空间监督来减轻潜在空间中空间压缩导致的外观模糊。大量实验表明,OrbitNVS在GSO和OmniObject3D基准测试中显著优于以前的方法,尤其是在具有挑战性的单视角设置中(例如,+2.9 dB和+2.4 dB PSNR)。
🔬 方法详解
问题定义:现有新视角合成方法,尤其是在单视角输入的情况下,难以生成高质量、几何和外观一致的未观测区域视角。这些方法通常缺乏足够的先验知识来推断未见区域的结构和纹理,导致合成结果模糊或失真。
核心思路:OrbitNVS的核心思路是将新视角合成问题转化为一个视频生成问题,具体来说,生成一个围绕目标物体的“轨道视频”。通过利用预训练的视频生成模型,可以有效地利用其学习到的丰富的视觉先验知识,从而更好地推断和合成未见区域的视角。
技术框架:OrbitNVS的整体框架包括以下几个主要模块:1) 预训练视频生成模型:作为主干网络,负责生成视频帧序列。2) 相机适配器:用于控制视频生成过程中相机的运动轨迹,确保生成的视角序列符合预期的轨道运动。3) 法线贴图生成分支:从输入图像中预测法线贴图,提供几何信息,用于指导视角合成。4) 注意力机制:利用法线贴图特征来引导目标视角的合成,增强几何一致性。5) 像素空间监督:直接在像素空间进行监督,减少潜在空间压缩带来的模糊。
关键创新:OrbitNVS的关键创新在于将视频生成领域的强大先验知识引入到新视角合成任务中。通过将NVS问题转化为轨道视频生成,并利用预训练的视频生成模型,可以显著提高合成视角的质量和一致性。此外,法线贴图引导和像素空间监督进一步增强了几何和外观的一致性。
关键设计:相机适配器的具体实现方式未知,但其作用是控制视频生成模型生成特定相机轨迹的视频。法线贴图生成分支的具体网络结构未知,但其目标是从输入图像中预测准确的法线贴图。损失函数包括视频生成损失、法线贴图预测损失和像素空间监督损失。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
OrbitNVS在GSO和OmniObject3D数据集上取得了显著的性能提升,尤其是在单视角设置下。例如,在单视角设置下,OrbitNVS在PSNR指标上比现有方法提升了2.9 dB (GSO) 和 2.4 dB (OmniObject3D)。这些结果表明,OrbitNVS能够有效地利用视频扩散先验来提高新视角合成的质量。
🎯 应用场景
OrbitNVS在3D内容生成、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。高质量的新视角合成可以用于创建更逼真的3D模型,提升VR/AR体验,并为机器人提供更全面的环境感知能力。该研究的未来影响在于推动新视角合成技术的发展,使其能够更好地应用于各种实际场景。
📄 摘要(原文)
Novel View Synthesis (NVS) aims to generate unseen views of a 3D object given a limited number of known views. Existing methods often struggle to synthesize plausible views for unobserved regions, particularly under single-view input, and still face challenges in maintaining geometry- and appearance-consistency. To address these issues, we propose OrbitNVS, which reformulates NVS as an orbit video generation task. Through tailored model design and training strategies, we adapt a pre-trained video generation model to the NVS task, leveraging its rich visual priors to achieve high-quality view synthesis. Specifically, we incorporate camera adapters into the video model to enable accurate camera control. To enhance two key properties of 3D objects, geometry and appearance, we design a normal map generation branch and use normal map features to guide the synthesis of the target views via attention mechanism, thereby improving geometric consistency. Moreover, we apply a pixel-space supervision to alleviate blurry appearance caused by spatial compression in the latent space. Extensive experiments show that OrbitNVS significantly outperforms previous methods on the GSO and OmniObject3D benchmarks, especially in the challenging single-view setting (\eg, +2.9 dB and +2.4 dB PSNR).