NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene Representation
作者: Sicheng Li, Hao Li, Yiyi Liao, Lu Yu
分类: cs.CV, cs.GR, eess.IV
发布日期: 2024-04-02
备注: Accepted at CVPR2024. The source code will be released
💡 一句话要点
提出NeRFCodec以解决NeRF压缩效率低的问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 特征压缩 3D场景建模 量化技术 熵编码 新视角合成
📋 核心要点
- 现有NeRF压缩方法在压缩效率和图像质量之间存在权衡,难以满足高质量新视角合成的需求。
- 提出的NeRFCodec框架通过结合非线性变换、量化和熵编码,实现了内存高效的3D场景表示。
- 实验结果显示,NeRFCodec在压缩性能上优于现有方法,能够在0.5MB的内存预算下实现高质量的视角合成。
📝 摘要(中文)
神经辐射场(NeRF)的出现对3D场景建模和新视角合成产生了重大影响。高效的压缩技术是3D场景表示的永恒目标。本文提出了NeRFCodec,一个端到端的NeRF压缩框架,集成了非线性变换、量化和熵编码,以实现内存高效的场景表示。我们发现可以利用预训练的神经2D图像编码器来压缩特征,同时添加内容特定参数。通过修改编码器和解码器头部并保持其他部分冻结,我们能够通过渲染损失和熵损失的监督训练整个管道。实验结果表明,该方法在现有NeRF压缩方法中表现优越,实现了0.5MB内存预算下的高质量新视角合成。
🔬 方法详解
问题定义:本文旨在解决现有NeRF压缩方法在压缩效率和图像质量之间的权衡问题,现有方法难以在保证高质量新视角合成的同时实现有效的内存利用。
核心思路:NeRFCodec框架的核心思路是利用预训练的神经2D图像编码器,通过修改其编码器和解码器头部来实现特征压缩,同时保持其他部分冻结,以便于训练和优化。
技术框架:该框架包括非线性变换、量化和熵编码三个主要模块。首先,输入的NeRF特征通过修改后的编码器进行压缩,接着进行量化处理,最后通过熵编码生成比特流。
关键创新:NeRFCodec的关键创新在于重用预训练的神经2D图像编码器,并通过添加内容特定参数来优化特征压缩过程。这一方法显著提高了压缩效率和图像质量。
关键设计:在设计中,采用了渲染损失和熵损失作为监督信号,以平衡压缩率和失真。此外,特征解码器头部的修改和冻结策略使得训练过程更加高效。
📊 实验亮点
实验结果表明,NeRFCodec在0.5MB内存预算下实现了高质量的新视角合成,相较于现有的NeRF压缩方法,性能提升显著,展示了更优的压缩率和图像质量。
🎯 应用场景
NeRFCodec的研究成果可广泛应用于3D场景建模、虚拟现实、增强现实等领域,尤其是在需要高效存储和传输3D数据的场景中。其高效的压缩能力将推动相关技术的发展,提升用户体验。
📄 摘要(原文)
The emergence of Neural Radiance Fields (NeRF) has greatly impacted 3D scene modeling and novel-view synthesis. As a kind of visual media for 3D scene representation, compression with high rate-distortion performance is an eternal target. Motivated by advances in neural compression and neural field representation, we propose NeRFCodec, an end-to-end NeRF compression framework that integrates non-linear transform, quantization, and entropy coding for memory-efficient scene representation. Since training a non-linear transform directly on a large scale of NeRF feature planes is impractical, we discover that pre-trained neural 2D image codec can be utilized for compressing the features when adding content-specific parameters. Specifically, we reuse neural 2D image codec but modify its encoder and decoder heads, while keeping the other parts of the pre-trained decoder frozen. This allows us to train the full pipeline via supervision of rendering loss and entropy loss, yielding the rate-distortion balance by updating the content-specific parameters. At test time, the bitstreams containing latent code, feature decoder head, and other side information are transmitted for communication. Experimental results demonstrate our method outperforms existing NeRF compression methods, enabling high-quality novel view synthesis with a memory budget of 0.5 MB.