GANESH: Generalizable NeRF for Lensless Imaging
作者: Rakesh Raj Madavan, Akshat Kaimal, Badhrinarayanan K, Vinayak Gupta, Rohit Choudhary, Chandrakala Shanmuganathan, Kaushik Mitra
分类: cs.CV, eess.IV
发布日期: 2024-11-07
期刊: IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GANESH:用于无透镜成像的可泛化NeRF,实现多视角图像的三维重建与优化
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无透镜成像 神经辐射场 三维重建 新视角合成 可泛化模型
📋 核心要点
- 传统无透镜成像方法主要针对2D重建,泛化到3D重建效果不佳,且需要场景特定的训练数据。
- GANESH框架通过可泛化的NeRF,实现多视角无透镜图像的3D重建和新视角合成,无需场景特定训练。
- 实验结果表明,GANESH在重建精度和优化质量上优于现有方法,并发布了多视角无透镜数据集LenslessScenes。
📝 摘要(中文)
本文提出GANESH,一个新颖的框架,旨在从多视角无透镜图像中实现同步优化和新视角合成。与现有需要针对特定场景进行训练的方法不同,我们的方法支持即时推理,无需在每个场景上重新训练。此外,我们的框架允许我们将模型调整到特定场景,从而提高渲染和优化质量。为了促进该领域的研究,我们还提出了第一个多视角无透镜数据集LenslessScenes。大量实验表明,我们的方法在重建精度和优化质量方面优于当前的方法。
🔬 方法详解
问题定义:无透镜成像旨在移除传统相机中笨重的透镜系统,但传感器输出不再是直接图像,而是复杂的复用场景表示。现有方法依赖于可学习的逆变换和优化模型,但主要针对2D重建,难以泛化到3D重建,且需要针对每个场景进行重新训练,泛化能力差。
核心思路:GANESH的核心思路是利用神经辐射场(NeRF)的强大三维重建能力,并设计一个可泛化的框架,使其能够直接从多视角无透镜图像中进行三维场景的重建和新视角的合成,而无需针对特定场景进行训练。通过在推理阶段对特定场景进行微调,进一步提升重建和渲染质量。
技术框架:GANESH框架主要包含以下几个阶段:1) 多视角无透镜图像输入;2) 使用可泛化的NeRF模型进行初始三维场景重建;3) 对重建的三维场景进行优化和新视角合成;4) 可选的场景特定微调,以进一步提升重建和渲染质量。整体流程旨在实现从无透镜图像到高质量三维场景表示的转换。
关键创新:GANESH的关键创新在于其可泛化的NeRF框架,该框架能够直接从多视角无透镜图像中进行三维重建,而无需针对特定场景进行训练。这与现有方法需要场景特定训练形成了鲜明对比,大大提高了模型的泛化能力和实用性。此外,框架还支持对特定场景进行微调,进一步提升重建质量。
关键设计:GANESH的具体技术细节包括:1) 使用特定的网络结构来表示神经辐射场,例如MLP;2) 设计合适的损失函数,例如光度一致性损失,以约束重建的三维场景与输入图像的一致性;3) 采用特定的优化算法,例如Adam,来训练NeRF模型;4) 在微调阶段,使用少量场景特定数据来进一步优化模型参数。
🖼️ 关键图片
📊 实验亮点
GANESH在多视角无透镜图像的三维重建任务上取得了显著的成果。实验结果表明,GANESH在重建精度和优化质量方面均优于现有方法。此外,GANESH还发布了首个多视角无透镜数据集LenslessScenes,为该领域的研究提供了宝贵的数据资源。
🎯 应用场景
GANESH在超紧凑相机设计、机器人视觉、虚拟现实/增强现实等领域具有广泛的应用前景。它可以应用于需要小型化、低成本成像系统的场景,例如移动设备、可穿戴设备、无人机等。该技术的发展将推动相关领域的技术创新和应用拓展。
📄 摘要(原文)
Lensless imaging offers a significant opportunity to develop ultra-compact cameras by removing the conventional bulky lens system. However, without a focusing element, the sensor's output is no longer a direct image but a complex multiplexed scene representation. Traditional methods have attempted to address this challenge by employing learnable inversions and refinement models, but these methods are primarily designed for 2D reconstruction and do not generalize well to 3D reconstruction. We introduce GANESH, a novel framework designed to enable simultaneous refinement and novel view synthesis from multi-view lensless images. Unlike existing methods that require scene-specific training, our approach supports on-the-fly inference without retraining on each scene. Moreover, our framework allows us to tune our model to specific scenes, enhancing the rendering and refinement quality. To facilitate research in this area, we also present the first multi-view lensless dataset, LenslessScenes. Extensive experiments demonstrate that our method outperforms current approaches in reconstruction accuracy and refinement quality. Code and video results are available at https://rakesh-123-cryp.github.io/Rakesh.github.io/