SlimmeRF: Slimmable Radiance Fields
作者: Shiran Yuan, Hao Zhao
分类: cs.CV
发布日期: 2023-12-15
备注: 3DV 2024 Oral, Project Page: https://shiran-yuan.github.io/SlimmeRF/, Code: https://github.com/Shiran-Yuan/SlimmeRF/
DOI: 10.1109/3DV62453.2024.00143
🔗 代码/项目: GITHUB
💡 一句话要点
SlimmeRF:提出可裁剪神经辐射场,实现模型大小与精度间的灵活权衡。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 新视角合成 模型裁剪 张量分解 稀疏视图 模型压缩
📋 核心要点
- 现有NeRF模型在精度和内存效率之间存在trade-off,限制了其在不同计算资源场景下的应用。
- SlimmeRF通过提出的张量秩增量(TRaIn)算法,在训练过程中逐步增加模型张量表示的秩,实现模型裁剪。
- 实验表明,SlimmeRF在稀疏视图场景中能更有效地进行精度和模型大小的权衡,裁剪后有时甚至能提高精度。
📝 摘要(中文)
神经辐射场(NeRF)及其变体已成为新视角合成和3D场景重建的有效方法。然而,当前大多数NeRF模型要么通过大型模型实现高精度,要么通过牺牲精度来实现高内存效率。这限制了单个模型的适用范围,因为高精度模型可能无法适应低内存设备,而内存高效模型可能无法满足高质量要求。为此,我们提出了SlimmeRF,该模型允许在测试时通过裁剪在模型大小和精度之间进行即时权衡,从而使该模型同时适用于具有不同计算预算的场景。我们通过一种名为张量秩增量(TRaIn)的新算法来实现这一点,该算法在训练期间逐步增加模型张量表示的秩。我们还观察到,我们的模型允许在稀疏视图场景中进行更有效的权衡,有时甚至在裁剪后实现更高的精度。我们将此归功于这样一个事实,即诸如浮动伪影之类的错误信息倾向于存储在对应于较高秩的组件中。我们的实现可在https://github.com/Shiran-Yuan/SlimmeRF 获得。
🔬 方法详解
问题定义:现有神经辐射场(NeRF)模型通常需要在模型大小和渲染质量之间进行权衡。高精度模型计算量大,不适用于资源受限的设备,而轻量级模型则牺牲了渲染质量。因此,如何设计一个能够根据计算资源动态调整模型大小和精度的NeRF模型是一个关键问题。
核心思路:SlimmeRF的核心思路是通过可裁剪的张量分解来表示场景。通过逐步增加张量分解的秩,模型可以在训练过程中学习到不同复杂度的场景表示。在推理阶段,可以通过裁剪张量分解的秩来减小模型大小,从而实现模型大小和渲染质量之间的灵活权衡。这种设计允许模型在不同计算预算下运行,并适应不同的应用场景。
技术框架:SlimmeRF的整体框架基于神经辐射场,但其关键在于使用张量分解来表示场景的密度和颜色。具体来说,模型使用一个多层感知机(MLP)来预测给定位置和视角方向的密度和颜色。MLP的输入是位置和视角方向,输出是密度和颜色。为了实现可裁剪性,MLP的权重被表示为一个张量,该张量可以通过张量分解进行压缩和裁剪。TRaIn算法用于在训练期间逐步增加张量分解的秩。
关键创新:SlimmeRF最重要的创新点在于提出了张量秩增量(TRaIn)算法,该算法允许在训练过程中逐步增加模型张量表示的秩。与现有方法不同,TRaIn算法不是一次性地训练一个固定大小的模型,而是逐步地增加模型的复杂度。这种方法可以更有效地利用训练数据,并允许模型学习到不同复杂度的场景表示。此外,SlimmeRF还观察到,裁剪模型有时可以提高在稀疏视图场景中的渲染质量,这表明高秩分量可能包含噪声或冗余信息。
关键设计:SlimmeRF的关键设计包括:1) 使用张量分解来表示场景的密度和颜色;2) 提出张量秩增量(TRaIn)算法,用于在训练期间逐步增加模型张量表示的秩;3) 设计了一种损失函数,该损失函数鼓励模型学习到紧凑的张量表示。具体来说,损失函数包括一个渲染损失项和一个正则化项。渲染损失项用于衡量渲染图像与真实图像之间的差异,正则化项用于鼓励模型学习到低秩的张量表示。
📊 实验亮点
实验结果表明,SlimmeRF在模型大小和渲染质量之间实现了有效的权衡。在多个数据集上,SlimmeRF在保持相似渲染质量的同时,显著减小了模型大小。例如,在某些稀疏视图场景中,SlimmeRF在裁剪后甚至实现了更高的渲染质量,这表明高秩分量可能包含噪声或冗余信息。与现有方法相比,SlimmeRF在模型大小和渲染质量之间取得了更好的平衡。
🎯 应用场景
SlimmeRF具有广泛的应用前景,包括移动设备上的3D场景渲染、增强现实(AR)和虚拟现实(VR)应用、以及需要根据计算资源动态调整模型大小的场景。该模型可以根据设备的计算能力和用户的需求,自动调整模型大小和渲染质量,从而提供最佳的用户体验。此外,SlimmeRF还可以用于3D场景的压缩和传输,从而减少存储空间和带宽需求。
📄 摘要(原文)
Neural Radiance Field (NeRF) and its variants have recently emerged as successful methods for novel view synthesis and 3D scene reconstruction. However, most current NeRF models either achieve high accuracy using large model sizes, or achieve high memory-efficiency by trading off accuracy. This limits the applicable scope of any single model, since high-accuracy models might not fit in low-memory devices, and memory-efficient models might not satisfy high-quality requirements. To this end, we present SlimmeRF, a model that allows for instant test-time trade-offs between model size and accuracy through slimming, thus making the model simultaneously suitable for scenarios with different computing budgets. We achieve this through a newly proposed algorithm named Tensorial Rank Incrementation (TRaIn) which increases the rank of the model's tensorial representation gradually during training. We also observe that our model allows for more effective trade-offs in sparse-view scenarios, at times even achieving higher accuracy after being slimmed. We credit this to the fact that erroneous information such as floaters tend to be stored in components corresponding to higher ranks. Our implementation is available at https://github.com/Shiran-Yuan/SlimmeRF.