Learning Radiance Fields from a Single Snapshot Compressive Image
作者: Yunhao Li, Xiang Liu, Xiaodong Wang, Xin Yuan, Peidong Liu
分类: cs.CV
发布日期: 2024-12-27
💡 一句话要点
提出SCINeRF和SCISplat,从单快照压缩图像中学习辐射场,实现高质量三维重建和快速渲染。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 快照压缩成像 神经辐射场 三维重建 新视角合成 3D高斯溅射
📋 核心要点
- 传统方法难以从单快照压缩图像中有效恢复三维场景结构,限制了其在实时应用中的潜力。
- 论文提出SCINeRF和SCISplat,将SCI成像过程融入NeRF和3DGS框架,实现高效的三维场景重建。
- 实验表明,该方法在图像重建和新视角合成方面优于现有技术,并支持实时高帧率渲染。
📝 摘要(中文)
本文探索了快照压缩成像(SCI)技术在从单次时域压缩图像中恢复潜在3D场景结构方面的潜力。SCI是一种经济高效的方法,它能够使用低成本的2D成像传感器将高维数据(如高光谱或时间信息)记录到单个图像中。为了实现这一点,通常采用一系列专门设计的2D掩模,从而减少存储和传输需求,并提供潜在的隐私保护。受此启发,我们更进一步,利用神经辐射场(NeRF)强大的3D场景表示能力来恢复编码的3D场景信息。具体来说,我们提出了SCINeRF,其中我们将SCI的物理成像过程公式化为NeRF训练的一部分,从而利用其在捕获复杂场景结构方面的卓越性能。此外,我们进一步集成了流行的3D高斯溅射(3DGS)框架,并提出了SCISplat,通过将点云显式优化为3D高斯表示来提高3D场景重建质量和训练/渲染速度。为了评估我们方法的有效性,我们使用合成数据和由我们的SCI系统捕获的真实数据进行了广泛的评估。实验结果表明,我们提出的方法在图像重建和新视角合成方面超越了最先进的方法。此外,通过利用SCI和3DGS的渲染能力,我们的方法还能够实时渲染高帧率多视角一致的图像。代码将在https://github.com/WU-CVGL/SCISplat提供。
🔬 方法详解
问题定义:论文旨在解决从单快照压缩图像中恢复高质量三维场景结构的问题。现有方法通常难以有效利用压缩图像中的信息,导致重建质量不高,且计算复杂度较高,难以满足实时应用的需求。
核心思路:论文的核心思路是将快照压缩成像(SCI)的物理成像过程融入到神经辐射场(NeRF)和3D高斯溅射(3DGS)的训练中。通过将SCI的编码过程建模为NeRF/3DGS训练的一部分,可以有效地利用压缩图像中的信息,从而实现高质量的三维场景重建和快速渲染。
技术框架:SCINeRF和SCISplat的整体框架包括以下几个主要阶段:1) 使用SCI系统捕获单快照压缩图像;2) 将SCI的物理成像过程建模为NeRF/3DGS训练的一部分;3) 使用压缩图像和建模的成像过程联合优化NeRF/3DGS;4) 使用训练好的NeRF/3DGS进行三维场景重建和新视角合成。SCISplat在SCINeRF的基础上,使用3D高斯表示来显式地优化点云,从而提高重建质量和渲染速度。
关键创新:论文最重要的技术创新点在于将SCI的物理成像过程与NeRF/3DGS的训练过程相结合。这种方法能够有效地利用压缩图像中的信息,并避免了传统方法中需要先解压缩图像再进行三维重建的步骤,从而提高了重建效率和质量。与现有方法的本质区别在于,该方法直接从压缩图像中学习三维场景结构,而不是先解压缩图像。
关键设计:在SCINeRF中,关键设计包括:1) 使用多层感知机(MLP)来表示神经辐射场;2) 将SCI的掩模编码到MLP的输入中;3) 使用光度损失函数来优化MLP。在SCISplat中,关键设计包括:1) 使用3D高斯表示来显式地表示点云;2) 使用可微分的渲染过程来将3D高斯投影到2D图像上;3) 使用光度损失函数和深度损失函数来优化3D高斯参数。
📊 实验亮点
实验结果表明,SCINeRF和SCISplat在合成数据和真实数据上均取得了优异的性能。在图像重建和新视角合成方面,该方法超越了现有的最先进方法。此外,SCISplat能够实现实时高帧率的多视角一致图像渲染,为实时应用提供了可能。代码已开源。
🎯 应用场景
该研究成果可应用于多种领域,如实时三维重建、虚拟现实、增强现实、机器人导航和自动驾驶等。通过单快照压缩成像技术,可以降低数据采集成本和存储需求,并实现快速的三维场景重建和渲染,为这些应用提供更高效和经济的解决方案。未来,该技术有望在移动设备和嵌入式系统中得到广泛应用。
📄 摘要(原文)
In this paper, we explore the potential of Snapshot Compressive Imaging (SCI) technique for recovering the underlying 3D scene structure from a single temporal compressed image. SCI is a cost-effective method that enables the recording of high-dimensional data, such as hyperspectral or temporal information, into a single image using low-cost 2D imaging sensors. To achieve this, a series of specially designed 2D masks are usually employed, reducing storage and transmission requirements and offering potential privacy protection. Inspired by this, we take one step further to recover the encoded 3D scene information leveraging powerful 3D scene representation capabilities of neural radiance fields (NeRF). Specifically, we propose SCINeRF, in which we formulate the physical imaging process of SCI as part of the training of NeRF, allowing us to exploit its impressive performance in capturing complex scene structures. In addition, we further integrate the popular 3D Gaussian Splatting (3DGS) framework and propose SCISplat to improve 3D scene reconstruction quality and training/rendering speed by explicitly optimizing point clouds into 3D Gaussian representations. To assess the effectiveness of our method, we conduct extensive evaluations using both synthetic data and real data captured by our SCI system. Experimental results demonstrate that our proposed approach surpasses the state-of-the-art methods in terms of image reconstruction and novel view synthesis. Moreover, our method also exhibits the ability to render high frame-rate multi-view consistent images in real time by leveraging SCI and the rendering capabilities of 3DGS. Codes will be available at: https://github.com/WU- CVGL/SCISplat.