Dual-Camera All-in-Focus Neural Radiance Fields

📄 arXiv: 2504.16636v1 📥 PDF

作者: Xianrui Luo, Zijin Wu, Juewen Peng, Huiqiang Sun, Zhiguo Cao, Guosheng Lin

分类: cs.CV

发布日期: 2025-04-23

备注: Published by IEEE TPAMI 2025

DOI: 10.1109/TPAMI.2025.3537178


💡 一句话要点

提出DC-NeRF,利用双摄像头合成全聚焦神经辐射场,无需手动重聚焦。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 双摄像头 全聚焦 景深 图像融合

📋 核心要点

  1. 传统NeRF在缺乏清晰参考的情况下,难以处理因固定物体聚焦而产生的持续散焦模糊问题。
  2. 利用智能手机双摄像头,结合主摄像头的高分辨率和超广角摄像头的宽景深,作为恢复全聚焦NeRF的参考。
  3. 通过散焦感知融合模块,预测散焦图并融合双摄像头图像,实验证明能生成高质量全聚焦新视角。

📝 摘要(中文)

本文提出了一种能够从无需手动重聚焦的输入中合成全聚焦神经辐射场(NeRF)的首个框架。在没有重聚焦的情况下,相机会自动对所有视角的固定物体进行聚焦,而目前使用单摄像头的NeRF方法通常会失败,因为存在持续的散焦模糊和缺乏清晰的参考。为了恢复全聚焦NeRF,我们引入了智能手机中的双摄像头,其中超广角摄像头具有更宽的景深(DoF),而主摄像头具有更高的分辨率。双摄像头组合保存了来自主摄像头的高保真细节,并使用超广角摄像头的深景深作为全聚焦恢复的参考。为此,我们首先实现空间扭曲和颜色匹配来对齐双摄像头,然后是一个具有可学习散焦参数的散焦感知融合模块,以预测散焦图并融合对齐的摄像头对。我们还构建了一个多视角数据集,其中包括智能手机中主摄像头和超广角摄像头的图像对。在该数据集上的大量实验验证了我们的解决方案(称为DC-NeRF)可以生成高质量的全聚焦新视角,并且在定量和定性方面都优于强大的基线。我们进一步展示了DC-NeRF的景深应用,包括可调节的模糊强度和焦平面,包括重聚焦和分离屈光度。

🔬 方法详解

问题定义:现有NeRF方法在处理相机自动对焦固定物体时,由于缺乏清晰的参考图像,会导致持续的散焦模糊,从而难以生成高质量的新视角图像。尤其是在单摄像头场景下,这个问题更加突出,因为无法获得清晰的聚焦图像作为指导。

核心思路:利用智能手机的双摄像头系统,其中主摄像头提供高分辨率的图像细节,而超广角摄像头提供更宽的景深。通过融合这两个摄像头的信息,可以恢复出全聚焦的NeRF表示。核心在于利用超广角摄像头的深景深作为参考,指导主摄像头图像的散焦区域进行修复。

技术框架:DC-NeRF的整体框架包含以下几个主要步骤:1) 双摄像头对齐:首先进行空间扭曲和颜色匹配,将主摄像头和超广角摄像头的图像对齐。2) 散焦感知融合:设计一个散焦感知融合模块,该模块包含可学习的散焦参数,用于预测散焦图。3) 图像融合:利用预测的散焦图,将对齐的主摄像头和超广角摄像头图像进行融合,得到全聚焦图像。4) NeRF训练:使用融合后的全聚焦图像训练NeRF模型,生成高质量的新视角图像。

关键创新:该方法的核心创新在于利用双摄像头系统解决NeRF中的散焦问题。传统的NeRF方法依赖于清晰的输入图像,而DC-NeRF通过融合具有不同景深的双摄像头图像,有效地恢复了全聚焦场景。此外,散焦感知融合模块的设计也是一个关键创新,它能够自适应地预测散焦图,并根据散焦程度对双摄像头图像进行加权融合。

关键设计:在双摄像头对齐阶段,采用了空间扭曲和颜色匹配技术,以确保两个摄像头图像在几何和颜色上的一致性。散焦感知融合模块可能包含卷积神经网络,用于学习散焦参数和预测散焦图。损失函数的设计可能包括重建损失、正则化损失等,以保证融合图像的质量和NeRF模型的训练效果。具体的网络结构和参数设置在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DC-NeRF能够生成高质量的全聚焦新视角图像,并且在定量和定性方面都优于现有的NeRF方法。论文构建了一个新的多视角数据集,包含智能手机主摄像头和超广角摄像头的图像对,为相关研究提供了数据支持。具体的性能提升数据和对比基线在论文中应该有详细描述(未知)。

🎯 应用场景

DC-NeRF在增强现实、虚拟现实、机器人导航等领域具有广泛的应用前景。它可以用于创建高质量的全聚焦3D场景模型,提高用户在虚拟环境中的沉浸感。此外,该方法还可以应用于图像编辑和增强,例如实现重聚焦、调整景深等效果。未来,该技术有望应用于自动驾驶、智能监控等领域,提高图像处理和分析的准确性和可靠性。

📄 摘要(原文)

We present the first framework capable of synthesizing the all-in-focus neural radiance field (NeRF) from inputs without manual refocusing. Without refocusing, the camera will automatically focus on the fixed object for all views, and current NeRF methods typically using one camera fail due to the consistent defocus blur and a lack of sharp reference. To restore the all-in-focus NeRF, we introduce the dual-camera from smartphones, where the ultra-wide camera has a wider depth-of-field (DoF) and the main camera possesses a higher resolution. The dual camera pair saves the high-fidelity details from the main camera and uses the ultra-wide camera's deep DoF as reference for all-in-focus restoration. To this end, we first implement spatial warping and color matching to align the dual camera, followed by a defocus-aware fusion module with learnable defocus parameters to predict a defocus map and fuse the aligned camera pair. We also build a multi-view dataset that includes image pairs of the main and ultra-wide cameras in a smartphone. Extensive experiments on this dataset verify that our solution, termed DC-NeRF, can produce high-quality all-in-focus novel views and compares favorably against strong baselines quantitatively and qualitatively. We further show DoF applications of DC-NeRF with adjustable blur intensity and focal plane, including refocusing and split diopter.