GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis

📄 arXiv: 2505.19813v1 📥 PDF

作者: You Wang, Li Fang, Hao Zhu, Fei Hu, Long Ye, Zhan Ma

分类: cs.CV

发布日期: 2025-05-26

备注: CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出GoLF-NRT,融合全局上下文与局部几何信息,解决少样本视角合成问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 新视角合成 少样本学习 Transformer 全局上下文 局部几何 自适应采样

📋 核心要点

  1. 现有可泛化NeRF模型在新视角合成中依赖大量多视角观测,在少样本情况下性能显著下降。
  2. GoLF-NRT融合全局上下文和局部几何特征,利用3D Transformer和自适应采样策略提升少样本视角合成质量。
  3. 实验表明,GoLF-NRT在不同数量的输入视角下均达到SOTA性能,验证了方法的有效性。

📝 摘要(中文)

神经辐射场(NeRF)通过直接从图像中建模特定场景的体积表示,革新了新视角合成。虽然可泛化的NeRF模型可以通过学习潜在射线表示来生成未知场景的新视角,但其性能严重依赖于大量的多视角观测。然而,在输入视角有限的情况下,这些方法的渲染质量会显著下降。为了解决这个限制,我们提出了GoLF-NRT:一种基于全局和局部特征融合的神经渲染Transformer。GoLF-NRT通过利用具有高效稀疏注意力的3D Transformer来捕获全局场景上下文,从而增强了从少量输入视角进行的可泛化神经渲染。同时,它集成了沿极线的局部几何特征,从而能够从少至1到3个输入视角进行高质量的场景重建。此外,我们还引入了一种基于注意力权重和核回归的自适应采样策略,提高了基于Transformer的神经渲染的准确性。在公共数据集上的大量实验表明,GoLF-NRT在不同数量的输入视角下都取得了最先进的性能,突出了我们方法的有效性和优越性。

🔬 方法详解

问题定义:论文旨在解决少样本视角合成问题。现有可泛化NeRF方法在输入视角数量不足时,渲染质量会急剧下降,难以重建出高质量的场景。

核心思路:论文的核心思路是融合全局场景上下文和局部几何信息。通过全局上下文理解场景结构,并利用局部几何信息进行精细重建,从而在少量输入视角下也能实现高质量的视角合成。Transformer用于建模全局关系,局部几何特征则补充细节信息。

技术框架:GoLF-NRT包含以下主要模块:1) 特征提取模块,从输入图像中提取特征;2) 全局上下文建模模块,使用3D Transformer学习全局场景上下文;3) 局部几何特征提取模块,沿极线提取局部几何特征;4) 融合模块,将全局和局部特征融合;5) 渲染模块,基于融合后的特征进行新视角渲染。此外,还包含一个自适应采样模块,用于优化采样点。

关键创新:论文的关键创新在于全局上下文和局部几何信息的融合,以及基于Transformer的架构设计。传统的NeRF方法主要依赖于像素级别的特征,而GoLF-NRT通过Transformer引入了全局场景理解,并结合局部几何信息进行精细化重建,从而在少样本情况下也能取得较好的效果。自适应采样策略也进一步提升了渲染质量。

关键设计:3D Transformer采用稀疏注意力机制,以降低计算复杂度。局部几何特征通过沿极线采样并提取特征得到。自适应采样策略基于注意力权重和核回归,动态调整采样点的位置。损失函数包括渲染损失和正则化损失,用于优化网络参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GoLF-NRT在少样本视角合成任务上取得了显著的性能提升,在多个公开数据集上超越了现有SOTA方法。尤其是在仅有1-3个输入视角的情况下,GoLF-NRT的渲染质量明显优于其他方法,证明了其在少样本学习方面的优势。具体性能数据可在论文原文中查阅。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟现实、增强现实、三维重建等领域。在资源受限或难以获取大量多视角图像的场景下,例如室内导航、文物保护等,该方法具有重要的应用价值。未来可进一步探索其在动态场景和复杂光照条件下的应用。

📄 摘要(原文)

Neural Radiance Fields (NeRF) have transformed novel view synthesis by modeling scene-specific volumetric representations directly from images. While generalizable NeRF models can generate novel views across unknown scenes by learning latent ray representations, their performance heavily depends on a large number of multi-view observations. However, with limited input views, these methods experience significant degradation in rendering quality. To address this limitation, we propose GoLF-NRT: a Global and Local feature Fusion-based Neural Rendering Transformer. GoLF-NRT enhances generalizable neural rendering from few input views by leveraging a 3D transformer with efficient sparse attention to capture global scene context. In parallel, it integrates local geometric features extracted along the epipolar line, enabling high-quality scene reconstruction from as few as 1 to 3 input views. Furthermore, we introduce an adaptive sampling strategy based on attention weights and kernel regression, improving the accuracy of transformer-based neural rendering. Extensive experiments on public datasets show that GoLF-NRT achieves state-of-the-art performance across varying numbers of input views, highlighting the effectiveness and superiority of our approach. Code is available at https://github.com/KLMAV-CUC/GoLF-NRT.