LuSh-NeRF: Lighting up and Sharpening NeRFs for Low-light Scenes
作者: Zefan Qu, Ke Xu, Gerhard Petrus Hancke, Rynson W. H. Lau
分类: cs.CV
发布日期: 2024-11-11
备注: Accepted by NeurIPS 2024
🔗 代码/项目: GITHUB
💡 一句话要点
LuSh-NeRF:通过光照增强和锐化NeRF,解决低光照场景下的NeRF重建问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 低光照成像 图像去噪 相机位姿估计 三维重建
📋 核心要点
- 现有NeRF方法在低光照手持拍摄场景下,由于图像质量差(低可见度、噪声、相机抖动),重建效果不佳。
- LuSh-NeRF通过场景-噪声分解(SND)和相机轨迹预测(CTP)模块,分别建模噪声和模糊,从而重建清晰的NeRF。
- 论文构建了合成和真实数据集,实验结果表明LuSh-NeRF在低光照场景下优于现有方法。
📝 摘要(中文)
神经辐射场(NeRFs)在从高质量场景图像生成新视角图像方面表现出色。然而,手持低光摄影对NeRFs提出了挑战,因为捕获的图像可能同时受到低可见度、噪声和相机抖动的影响。虽然现有的NeRF方法可以处理低光或运动,但直接组合它们或结合额外的基于图像的增强方法并不能奏效,因为这些退化因素高度耦合。我们观察到,低光图像中的噪声始终是清晰的,而与相机抖动无关,这意味着图像形成过程中这些退化因素存在隐式顺序。为此,本文提出了一种名为LuSh-NeRF的新模型,它可以从一组手持低光图像中重建干净且清晰的NeRF。LuSh-NeRF的关键思想是通过多视角特征一致性和NeRF的频率信息,依次对图像中的噪声和模糊进行建模。具体来说,LuSh-NeRF包括一个用于将噪声与场景表示解耦的新型场景-噪声分解(SND)模块,以及一个用于基于低频场景信息估计相机运动的新型相机轨迹预测(CTP)模块。为了方便训练和评估,我们构建了一个包含合成图像和真实图像的新数据集。实验表明,LuSh-NeRF优于现有方法。我们的代码和数据集可以在https://github.com/quzefan/LuSh-NeRF找到。
🔬 方法详解
问题定义:论文旨在解决低光照手持拍摄场景下,由于图像质量差(低可见度、噪声、相机抖动)导致的NeRF重建效果不佳的问题。现有方法要么无法同时处理多种退化因素,要么直接组合图像增强方法效果不佳,因为这些退化因素高度耦合。
核心思路:论文的核心思路是利用低光图像中噪声的清晰度与相机抖动无关的特性,认为噪声和模糊在图像形成过程中存在先后顺序。因此,通过依次建模噪声和模糊,可以有效地解耦这些退化因素,从而重建出清晰的NeRF。
技术框架:LuSh-NeRF的整体框架包含两个主要模块:场景-噪声分解(SND)模块和相机轨迹预测(CTP)模块。SND模块用于将噪声从场景表示中分离出来,CTP模块用于基于低频场景信息估计相机运动。整个流程首先通过SND模块去除噪声,然后通过CTP模块估计相机位姿,最后利用优化后的位姿和去噪后的图像重建NeRF。
关键创新:论文的关键创新在于提出了场景-噪声分解(SND)模块和相机轨迹预测(CTP)模块,并利用多视角特征一致性和NeRF的频率信息来分别建模噪声和模糊。SND模块能够有效地将噪声从场景表示中分离出来,而CTP模块能够准确地估计相机运动,从而提高了NeRF在低光照场景下的重建效果。与现有方法相比,LuSh-NeRF能够同时处理低光、噪声和相机抖动等多种退化因素。
关键设计:SND模块的具体网络结构未知。CTP模块利用低频场景信息进行相机位姿估计,具体实现方式未知。损失函数的设计可能包括重建损失、正则化损失等,具体细节未知。数据集包含合成图像和真实图像,用于训练和评估LuSh-NeRF的性能。
🖼️ 关键图片
📊 实验亮点
论文构建了包含合成和真实图像的新数据集,用于训练和评估LuSh-NeRF。实验结果表明,LuSh-NeRF在低光照场景下优于现有方法,能够有效地去除噪声和模糊,并重建出清晰的NeRF。具体的性能数据和提升幅度在论文中给出,但摘要中未提及。
🎯 应用场景
LuSh-NeRF在低光照成像领域具有广泛的应用前景,例如夜间摄影、医学成像、安防监控等。该技术可以用于提高低光照图像的质量,从而改善视觉体验和提高图像分析的准确性。此外,LuSh-NeRF还可以应用于三维重建、虚拟现实等领域,为用户提供更加逼真的场景体验。
📄 摘要(原文)
Neural Radiance Fields (NeRFs) have shown remarkable performances in producing novel-view images from high-quality scene images. However, hand-held low-light photography challenges NeRFs as the captured images may simultaneously suffer from low visibility, noise, and camera shakes. While existing NeRF methods may handle either low light or motion, directly combining them or incorporating additional image-based enhancement methods does not work as these degradation factors are highly coupled. We observe that noise in low-light images is always sharp regardless of camera shakes, which implies an implicit order of these degradation factors within the image formation process. To this end, we propose in this paper a novel model, named LuSh-NeRF, which can reconstruct a clean and sharp NeRF from a group of hand-held low-light images. The key idea of LuSh-NeRF is to sequentially model noise and blur in the images via multi-view feature consistency and frequency information of NeRF, respectively. Specifically, LuSh-NeRF includes a novel Scene-Noise Decomposition (SND) module for decoupling the noise from the scene representation and a novel Camera Trajectory Prediction (CTP) module for the estimation of camera motions based on low-frequency scene information. To facilitate training and evaluations, we construct a new dataset containing both synthetic and real images. Experiments show that LuSh-NeRF outperforms existing approaches. Our code and dataset can be found here: https://github.com/quzefan/LuSh-NeRF.