Generalizable NGP-SR: Generalizable Neural Radiance Fields Super-Resolution via Neural Graph Primitives

📄 arXiv: 2603.20128v1 📥 PDF

作者: Wanqi Yuan, Omkar Sharad Mayekar, Connor Pennington, Nianyi Li

分类: cs.CV

发布日期: 2026-03-20


💡 一句话要点

提出通用NGP-SR,通过神经图元实现可泛化的神经辐射场超分辨率重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 超分辨率 新视角合成 神经图形原语 可泛化性

📋 核心要点

  1. 现有NeRF超分辨率方法计算成本高昂,且直接在2D图像上进行超分易破坏多视角一致性。
  2. NGP-SR利用神经图形原语NGP,通过3D坐标和局部纹理token预测辐射,恢复高频细节并保证视角一致性。
  3. 实验表明,NGP-SR在多个数据集上优于现有NeRF超分辨率方法,提升了重建质量和运行效率。

📝 摘要(中文)

神经辐射场(NeRF)在实现照片级真实感的新视角合成方面表现出色,但当需要高分辨率(HR)渲染时,成本会变得很高,因为HR输出需要密集的采样和更高容量的模型。此外,在2D中简单地对每个视角的渲染进行超分辨率处理通常会破坏多视角一致性。我们提出了通用NGP-SR,这是一个3D感知的超分辨率框架,可以直接从低分辨率(LR)的姿态图像重建HR辐射场。NGP-SR建立在神经图形原语(NGP)之上,以3D坐标和学习到的局部纹理token为条件进行辐射预测,从而能够在辐射场内恢复高频细节,并生成视角一致的HR新视角,而无需外部HR参考或事后2D上采样。重要的是,我们的模型是可泛化的:一旦训练完成,它就可以应用于未见过的场景,并从新的视角进行渲染,而无需针对每个场景进行优化。在多个数据集上的实验表明,NGP-SR在重建质量和运行效率方面始终优于以前基于NeRF的超分辨率方法,为可扩展的高分辨率新视角合成提供了一个实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决神经辐射场在高分辨率渲染时计算成本高昂,以及传统2D超分辨率方法破坏多视角一致性的问题。现有NeRF超分辨率方法通常需要针对每个场景进行优化,泛化能力较弱。

核心思路:核心思路是构建一个可泛化的3D感知的超分辨率框架,直接从低分辨率图像重建高分辨率辐射场。通过在辐射场中恢复高频细节,并利用3D信息保证多视角一致性,从而避免了对每个场景进行单独优化。

技术框架:NGP-SR框架基于神经图形原语(NGP),主要包含以下模块:1) 输入低分辨率图像及其相机位姿;2) 使用NGP网络预测3D坐标处的辐射值和颜色;3) 利用学习到的局部纹理token作为条件,增强高频细节的恢复能力;4) 通过体渲染生成高分辨率新视角图像。整个过程无需外部高分辨率参考图像或后处理的2D上采样。

关键创新:最重要的创新点在于其可泛化性。NGP-SR模型训练完成后,可以直接应用于未见过的场景,无需针对每个场景进行优化。此外,利用局部纹理token作为条件,有效地提升了高频细节的恢复能力。

关键设计:NGP网络采用多层感知机(MLP)结构,输入为3D坐标和视角方向,输出为颜色和密度。局部纹理token通过可学习的嵌入向量表示,并与3D坐标一起输入到MLP中。损失函数包括重建损失和正则化项,用于约束辐射场的平滑性和一致性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NGP-SR在多个数据集上显著优于现有的NeRF超分辨率方法。具体而言,在重建质量方面,NGP-SR在PSNR、SSIM等指标上均取得了明显的提升。同时,NGP-SR的运行效率也更高,能够更快地生成高分辨率的新视角图像。这些结果验证了NGP-SR在可泛化性和性能方面的优势。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域,尤其是在需要高质量、高效率的新视角合成的场景中。例如,可以用于创建逼真的虚拟环境,或者在低带宽条件下实现高质量的远程呈现。此外,该方法的可泛化性使其在实际应用中具有更大的潜力。

📄 摘要(原文)

Neural Radiance Fields (NeRF) achieve photorealistic novel view synthesis but become costly when high-resolution (HR) rendering is required, as HR outputs demand dense sampling and higher-capacity models. Moreover, naively super-resolving per-view renderings in 2D often breaks multi-view consistency. We propose Generalizable NGP-SR, a 3D-aware super-resolution framework that reconstructs an HR radiance field directly from low-resolution (LR) posed images. Built on Neural Graphics Primitives (NGP), NGP-SR conditions radiance prediction on 3D coordinates and learned local texture tokens, enabling recovery of high-frequency details within the radiance field and producing view-consistent HR novel views without external HR references or post-hoc 2D upsampling. Importantly, our model is generalizable: once trained, it can be applied to unseen scenes and rendered from novel viewpoints without per-scene optimization. Experiments on multiple datasets show that NGP-SR consistently improves both reconstruction quality and runtime efficiency over prior NeRF-based super-resolution methods, offering a practical solution for scalable high-resolution novel view synthesis.