GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis

作者: You Wang, Li Fang, Hao Zhu, Fei Hu, Long Ye, Zhan Ma

分类: cs.CV

发布日期: 2025-05-26

备注: CVPR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出GoLF-NRT，融合全局上下文与局部几何信息，解决少样本视角合成问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 新视角合成 少样本学习 Transformer 全局上下文 局部几何 自适应采样

📋 核心要点

现有可泛化NeRF模型在新视角合成中依赖大量多视角观测，在少样本情况下性能显著下降。
GoLF-NRT融合全局上下文和局部几何特征，利用3D Transformer和自适应采样策略提升少样本视角合成质量。
实验表明，GoLF-NRT在不同数量的输入视角下均达到SOTA性能，验证了方法的有效性。

📝 摘要（中文）

神经辐射场(NeRF)通过直接从图像中建模特定场景的体积表示，革新了新视角合成。虽然可泛化的NeRF模型可以通过学习潜在射线表示来生成未知场景的新视角，但其性能严重依赖于大量的多视角观测。然而，在输入视角有限的情况下，这些方法的渲染质量会显著下降。为了解决这个限制，我们提出了GoLF-NRT：一种基于全局和局部特征融合的神经渲染Transformer。GoLF-NRT通过利用具有高效稀疏注意力的3D Transformer来捕获全局场景上下文，从而增强了从少量输入视角进行的可泛化神经渲染。同时，它集成了沿极线的局部几何特征，从而能够从少至1到3个输入视角进行高质量的场景重建。此外，我们还引入了一种基于注意力权重和核回归的自适应采样策略，提高了基于Transformer的神经渲染的准确性。在公共数据集上的大量实验表明，GoLF-NRT在不同数量的输入视角下都取得了最先进的性能，突出了我们方法的有效性和优越性。

🔬 方法详解

问题定义：论文旨在解决少样本视角合成问题。现有可泛化NeRF方法在输入视角数量不足时，渲染质量会急剧下降，难以重建出高质量的场景。

核心思路：论文的核心思路是融合全局场景上下文和局部几何信息。通过全局上下文理解场景结构，并利用局部几何信息进行精细重建，从而在少量输入视角下也能实现高质量的视角合成。Transformer用于建模全局关系，局部几何特征则补充细节信息。

技术框架：GoLF-NRT包含以下主要模块：1) 特征提取模块，从输入图像中提取特征；2) 全局上下文建模模块，使用3D Transformer学习全局场景上下文；3) 局部几何特征提取模块，沿极线提取局部几何特征；4) 融合模块，将全局和局部特征融合；5) 渲染模块，基于融合后的特征进行新视角渲染。此外，还包含一个自适应采样模块，用于优化采样点。

关键创新：论文的关键创新在于全局上下文和局部几何信息的融合，以及基于Transformer的架构设计。传统的NeRF方法主要依赖于像素级别的特征，而GoLF-NRT通过Transformer引入了全局场景理解，并结合局部几何信息进行精细化重建，从而在少样本情况下也能取得较好的效果。自适应采样策略也进一步提升了渲染质量。

关键设计：3D Transformer采用稀疏注意力机制，以降低计算复杂度。局部几何特征通过沿极线采样并提取特征得到。自适应采样策略基于注意力权重和核回归，动态调整采样点的位置。损失函数包括渲染损失和正则化损失，用于优化网络参数。

🖼️ 关键图片

📊 实验亮点

GoLF-NRT在少样本视角合成任务上取得了显著的性能提升，在多个公开数据集上超越了现有SOTA方法。尤其是在仅有1-3个输入视角的情况下，GoLF-NRT的渲染质量明显优于其他方法，证明了其在少样本学习方面的优势。具体性能数据可在论文原文中查阅。

🎯 应用场景

该研究成果可应用于机器人导航、虚拟现实、增强现实、三维重建等领域。在资源受限或难以获取大量多视角图像的场景下，例如室内导航、文物保护等，该方法具有重要的应用价值。未来可进一步探索其在动态场景和复杂光照条件下的应用。

📄 摘要（原文）

Neural Radiance Fields (NeRF) have transformed novel view synthesis by modeling scene-specific volumetric representations directly from images. While generalizable NeRF models can generate novel views across unknown scenes by learning latent ray representations, their performance heavily depends on a large number of multi-view observations. However, with limited input views, these methods experience significant degradation in rendering quality. To address this limitation, we propose GoLF-NRT: a Global and Local feature Fusion-based Neural Rendering Transformer. GoLF-NRT enhances generalizable neural rendering from few input views by leveraging a 3D transformer with efficient sparse attention to capture global scene context. In parallel, it integrates local geometric features extracted along the epipolar line, enabling high-quality scene reconstruction from as few as 1 to 3 input views. Furthermore, we introduce an adaptive sampling strategy based on attention weights and kernel regression, improving the accuracy of transformer-based neural rendering. Extensive experiments on public datasets show that GoLF-NRT achieves state-of-the-art performance across varying numbers of input views, highlighting the effectiveness and superiority of our approach. Code is available at https://github.com/KLMAV-CUC/GoLF-NRT.

GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理