GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis

📄 arXiv: 2603.14965v1 📥 PDF

作者: Minjun Kang, Inkyu Shin, Taeyeop Lee, Myungchul Kim, In So Kweon, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2026-03-16

备注: The code will be available at https://sites.google.com/view/minjun-kang/geonvs-arxiv26


💡 一句话要点

GeoNVS:基于几何约束的视频扩散模型,用于高质量新视角合成

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 新视角合成 视频扩散模型 几何约束 高斯溅射 特征适配器 三维重建 相机控制

📋 核心要点

  1. 现有新视角合成方法在几何一致性和相机可控性方面存在不足,容易产生几何失真。
  2. GeoNVS通过GS-Adapter将扩散特征提升到3D高斯表示,并利用几何约束来校正特征,提升几何保真度。
  3. 实验表明,GeoNVS在多个场景和设置中均优于现有方法,显著提升了新视角合成的质量。

📝 摘要(中文)

新视角合成需要强大的3D几何一致性以及在不同视角下生成视觉连贯图像的能力。虽然最近的相机控制视频扩散模型显示出不错的结果,但它们通常存在几何失真和有限的相机可控性。为了克服这些挑战,我们提出了GeoNVS,一种基于几何约束的新视角合成器,通过显式的3D几何引导来增强几何保真度和相机可控性。我们的关键创新是高斯溅射特征适配器(GS-Adapter),它将输入视角的扩散特征提升到3D高斯表示,渲染几何约束的新视角特征,并自适应地将它们与扩散特征融合,以校正几何上不一致的表示。与在输入层注入几何信息的先前方法不同,GS-Adapter在特征空间中操作,避免了降低结构一致性的视角相关的颜色噪声。其即插即用设计使其能够与各种前馈几何模型进行零样本兼容,而无需额外的训练,并且可以适应其他视频扩散骨干网络。在9个场景和18个设置中的实验表明,该方法达到了最先进的性能,与SEVA和CameraCtrl相比,分别实现了11.3%和14.9%的改进,平移误差最多减少2倍,Chamfer距离减少7倍。

🔬 方法详解

问题定义:现有基于视频扩散模型的新视角合成方法,虽然在视觉效果上取得了一定的进展,但仍然面临着几何一致性差和相机控制能力有限的问题。这些方法容易产生几何失真,并且难以精确控制相机运动,导致合成的新视角图像质量下降。现有的方法通常在输入层注入几何信息,容易受到视角相关的颜色噪声的影响,从而降低结构一致性。

核心思路:GeoNVS的核心思路是通过显式的3D几何引导来增强几何保真度和相机可控性。具体来说,该方法利用高斯溅射特征适配器(GS-Adapter)将输入视角的扩散特征提升到3D高斯表示,从而在特征空间中进行几何约束。这种方法避免了在输入层直接注入几何信息可能带来的颜色噪声问题,从而提高了结构一致性。

技术框架:GeoNVS的整体框架包括以下几个主要模块:1) 输入视角图像的扩散特征提取;2) GS-Adapter将扩散特征提升到3D高斯表示;3) 基于几何约束渲染新视角特征;4) 将渲染的新视角特征与原始扩散特征自适应融合;5) 通过扩散模型生成最终的新视角图像。GS-Adapter是整个框架的核心模块,负责将2D特征转换为3D表示,并进行几何约束。

关键创新:GeoNVS的关键创新在于GS-Adapter的设计。GS-Adapter能够在特征空间中进行几何约束,避免了在输入层注入几何信息可能带来的颜色噪声问题。此外,GS-Adapter具有即插即用的特性,可以与各种前馈几何模型进行零样本兼容,无需额外的训练。这使得GeoNVS具有很强的灵活性和可扩展性。

关键设计:GS-Adapter的关键设计包括:1) 使用3D高斯表示来编码几何信息;2) 设计自适应融合机制,将渲染的新视角特征与原始扩散特征进行融合;3) 采用几何损失函数来约束3D高斯表示的几何一致性。此外,该方法还利用了预训练的视频扩散模型作为骨干网络,并对其进行了微调,以适应新视角合成的任务。

📊 实验亮点

GeoNVS在9个场景和18个设置中进行了实验,结果表明,该方法达到了最先进的性能。与SEVA和CameraCtrl相比,GeoNVS分别实现了11.3%和14.9%的性能提升。此外,GeoNVS还显著降低了平移误差(最多减少2倍)和Chamfer距离(减少7倍),表明该方法在几何保真度方面具有显著优势。

🎯 应用场景

GeoNVS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成高质量的新视角图像和视频,从而提升用户体验。此外,该方法还可以用于三维重建、场景理解等任务,为相关领域的研究提供新的思路和方法。

📄 摘要(原文)

Novel view synthesis requires strong 3D geometric consistency and the ability to generate visually coherent images across diverse viewpoints. While recent camera-controlled video diffusion models show promising results, they often suffer from geometric distortions and limited camera controllability. To overcome these challenges, we introduce GeoNVS, a geometry-grounded novel-view synthesizer that enhances both geometric fidelity and camera controllability through explicit 3D geometric guidance. Our key innovation is the Gaussian Splat Feature Adapter (GS-Adapter), which lifts input-view diffusion features into 3D Gaussian representations, renders geometry-constrained novel-view features, and adaptively fuses them with diffusion features to correct geometrically inconsistent representations. Unlike prior methods that inject geometry at the input level, GS-Adapter operates in feature space, avoiding view-dependent color noise that degrades structural consistency. Its plug-and-play design enables zero-shot compatibility with diverse feed-forward geometry models without additional training, and can be adapted to other video diffusion backbones. Experiments across 9 scenes and 18 settings demonstrate state-of-the-art performance, achieving 11.3% and 14.9% improvements over SEVA and CameraCtrl, with up to 2x reduction in translation error and 7x in Chamfer Distance.