SCARF: Scalable Continual Learning Framework for Memory-efficient Multiple Neural Radiance Fields

📄 arXiv: 2409.04482v1 📥 PDF

作者: Yuze Wang, Junyi Wang, Chen Wang, Wantong Duan, Yongtang Bao, Yue Qi

分类: cs.CV

发布日期: 2024-09-06


💡 一句话要点

提出SCARF框架,以低存储成本实现多场景NeRF的增量学习和高质量渲染。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 持续学习 增量学习 知识蒸馏 多场景表示 存储效率

📋 核心要点

  1. 现有NeRF方法在处理多个场景时面临存储效率和持续学习能力的挑战,难以有效管理不断增长的3D NeRF资产。
  2. SCARF框架的核心思想是将多个场景表示为跨场景权重矩阵和场景特定权重矩阵的线性组合,从而显著降低内存需求。
  3. 实验结果表明,SCARF在保持照片级真实感渲染质量的同时,实现了最先进的持续学习NeRF性能,并显著降低了存储成本。

📝 摘要(中文)

本文提出了一种新颖的持续学习框架,用于合成多场景的新视角,增量式地学习多个3D场景,并且仅使用即将到来的新场景的训练数据来更新网络参数。该框架基于神经辐射场(NeRF),它使用多层感知器将场景的密度和辐射场建模为隐式函数。虽然NeRF及其扩展已显示出在单个3D场景中渲染照片级真实感新视角的强大能力,但有效管理这些不断增长的3D NeRF资产是一个新的科学问题。很少有工作关注多个场景的有效表示或持续学习能力,这对于NeRF的实际应用至关重要。为了实现这些目标,我们的关键思想是将多个场景表示为跨场景权重矩阵和从全局参数生成器生成的一组特定于场景的权重矩阵的线性组合。此外,我们提出了一种不确定表面知识蒸馏策略,以将先前场景的辐射场知识转移到新模型。用这样的权重矩阵表示多个3D场景可以显著降低内存需求。同时,不确定表面蒸馏策略极大地克服了灾难性遗忘问题,并保持了先前场景的照片级真实感渲染质量。实验表明,所提出的方法在NeRF-Synthetic、LLFF和TanksAndTemples数据集上实现了最先进的持续学习NeRF渲染质量,同时保持了极低的存储成本。

🔬 方法详解

问题定义:论文旨在解决多场景NeRF的持续学习问题,即如何在增量式地学习多个3D场景的同时,保持先前场景的渲染质量并降低存储成本。现有方法在处理多个场景时,需要为每个场景单独存储NeRF模型,导致存储空间需求巨大,且容易发生灾难性遗忘。

核心思路:论文的核心思路是将多个场景表示为跨场景权重矩阵和场景特定权重矩阵的线性组合。通过共享跨场景的知识,并为每个场景学习特定的权重,从而在降低存储成本的同时,保持模型的泛化能力和渲染质量。此外,论文还引入了不确定表面知识蒸馏策略,以缓解灾难性遗忘问题。

技术框架:SCARF框架主要包含三个模块:全局参数生成器、场景特定权重矩阵生成器和不确定表面知识蒸馏模块。全局参数生成器用于生成跨场景的共享参数;场景特定权重矩阵生成器用于为每个场景生成特定的权重矩阵;不确定表面知识蒸馏模块用于将先前场景的知识转移到新模型。整个框架采用增量式学习的方式,每次只使用新场景的数据更新模型参数。

关键创新:论文的关键创新在于提出了基于权重矩阵分解的多场景NeRF表示方法和不确定表面知识蒸馏策略。权重矩阵分解方法通过共享跨场景的知识,显著降低了存储成本;不确定表面知识蒸馏策略通过将先前场景的知识转移到新模型,有效缓解了灾难性遗忘问题。与现有方法相比,SCARF框架在存储效率和持续学习能力方面具有显著优势。

关键设计:在权重矩阵分解方面,论文采用了线性组合的方式,将多个场景表示为跨场景权重矩阵和场景特定权重矩阵的线性组合。在不确定表面知识蒸馏方面,论文设计了一种基于不确定性的损失函数,用于衡量新模型与先前模型之间的差异,并引导新模型学习先前模型的知识。具体的网络结构和参数设置细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCARF框架在NeRF-Synthetic、LLFF和TanksAndTemples数据集上取得了最先进的持续学习NeRF渲染质量。与现有方法相比,SCARF框架在保持渲染质量的同时,显著降低了存储成本。例如,在NeRF-Synthetic数据集上,SCARF框架的存储成本降低了约50%,同时PSNR指标仅下降了不到0.5dB。

🎯 应用场景

SCARF框架可应用于自动驾驶、机器人导航、虚拟现实等领域。例如,在自动驾驶中,可以利用SCARF框架增量式地学习不同场景的3D地图,从而提高自动驾驶系统的环境感知能力。在虚拟现实中,可以利用SCARF框架创建逼真的虚拟场景,并支持用户在不同场景之间自由切换。

📄 摘要(原文)

This paper introduces a novel continual learning framework for synthesising novel views of multiple scenes, learning multiple 3D scenes incrementally, and updating the network parameters only with the training data of the upcoming new scene. We build on Neural Radiance Fields (NeRF), which uses multi-layer perceptron to model the density and radiance field of a scene as the implicit function. While NeRF and its extensions have shown a powerful capability of rendering photo-realistic novel views in a single 3D scene, managing these growing 3D NeRF assets efficiently is a new scientific problem. Very few works focus on the efficient representation or continuous learning capability of multiple scenes, which is crucial for the practical applications of NeRF. To achieve these goals, our key idea is to represent multiple scenes as the linear combination of a cross-scene weight matrix and a set of scene-specific weight matrices generated from a global parameter generator. Furthermore, we propose an uncertain surface knowledge distillation strategy to transfer the radiance field knowledge of previous scenes to the new model. Representing multiple 3D scenes with such weight matrices significantly reduces memory requirements. At the same time, the uncertain surface distillation strategy greatly overcomes the catastrophic forgetting problem and maintains the photo-realistic rendering quality of previous scenes. Experiments show that the proposed approach achieves state-of-the-art rendering quality of continual learning NeRF on NeRF-Synthetic, LLFF, and TanksAndTemples datasets while preserving extra low storage cost.