Neural Radiance Fields for Novel View Synthesis in Monocular Gastroscopy

📄 arXiv: 2405.18863v1 📥 PDF

作者: Zijie Jiang, Yusuke Monno, Masatoshi Okutomi, Sho Suzuki, Kenji Miki

分类: cs.CV

发布日期: 2024-05-29

备注: Accepted for EMBC 2024


💡 一句话要点

提出基于几何先验的神经辐射场方法,用于单目胃镜图像的新视角合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 新视角合成 单目胃镜 几何先验 医学图像处理

📋 核心要点

  1. 传统方法在胃镜图像新视角合成中,由于胃内低纹理和非朗伯区域导致重建的点云和网格质量差,影响渲染效果。
  2. 论文提出将预重建点云的几何先验融入NeRF训练,通过几何损失约束观测和未观测视角,提升渲染质量。
  3. 实验结果表明,该方法在单目胃镜图像新视角合成任务中,相比其他NeRF方法,能够生成更高保真度的图像。

📝 摘要(中文)

本文研究了从预先捕获的单目胃镜图像中合成患者胃内任意新视点图像的问题,这在胃部诊断中具有重要意义。传统方法通常采用SfM和泊松表面重建等3D重建技术,生成点云和网格等显式3D表示,从而实现新视点图像的渲染。然而,胃内低纹理和非朗伯区域的存在常常导致点云和网格重建的噪声和不完整,阻碍了高质量图像渲染的实现。本文将新兴的神经辐射场(NeRF)技术应用于单目胃镜数据,以合成逼真的新视点图像。为了解决单目胃镜局部区域中由于视角稀疏性导致的性能下降问题,我们将预重建点云中的几何先验融入到NeRF的训练中,从而为预先捕获的观测视图和生成的未观测视图引入了一种新的基于几何的损失。与其他最新的NeRF方法相比,我们的方法在胃内新视点图像的渲染方面,在定性和定量上都展示了高保真度。

🔬 方法详解

问题定义:论文旨在解决单目胃镜图像新视角合成问题。现有方法依赖于传统的3D重建技术(如SfM和泊松表面重建),但由于胃部图像的特殊性(低纹理、非朗伯反射),重建出的点云和网格存在噪声和不完整,导致渲染质量不高。因此,如何在视角稀疏且图像质量受限的情况下,实现高质量的新视角合成是本研究要解决的核心问题。

核心思路:论文的核心思路是将神经辐射场(NeRF)应用于单目胃镜图像的新视角合成,并利用预重建的点云作为几何先验来指导NeRF的训练。NeRF能够隐式地学习场景的3D结构和辐射属性,避免了显式3D重建的不足。通过引入几何先验,可以缓解由于视角稀疏性导致的NeRF训练困难,提高合成图像的质量。

技术框架:整体框架包括两个主要阶段:1) 使用SfM等传统方法预重建点云;2) 使用预重建的点云作为几何先验,训练NeRF。在NeRF训练阶段,除了传统的图像重建损失外,还引入了基于几何的损失函数,该损失函数同时作用于观测视角和合成的未观测视角。整个框架以单目胃镜图像作为输入,输出为任意新视角的合成图像。

关键创新:论文的关键创新在于将几何先验融入到NeRF的训练中,并设计了相应的几何损失函数。与直接使用NeRF的方法相比,该方法能够更好地利用已有的几何信息,提高在视角稀疏情况下的新视角合成质量。与传统的基于显式3D重建的方法相比,该方法避免了由于重建误差导致的渲染伪影。

关键设计:几何损失函数的设计是关键。具体来说,该损失函数衡量了NeRF预测的深度与预重建点云的深度之间的差异。此外,论文可能还涉及一些网络结构的设计,例如MLP的层数、神经元的数量等,以及训练过程中的超参数设置,例如学习率、batch size等。这些细节在论文中应该有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出方法的有效性。实验结果表明,与直接使用NeRF的方法相比,该方法能够生成更高质量的新视角图像,在PSNR、SSIM等指标上均有显著提升。此外,论文还与其他最新的NeRF方法进行了对比,结果表明该方法在单目胃镜图像新视角合成任务中具有更好的性能。

🎯 应用场景

该研究成果可应用于计算机辅助胃部疾病诊断。医生可以通过该技术,在无需额外内窥镜检查的情况下,从不同视角观察胃部内部结构,从而更全面地了解病灶情况,提高诊断准确率。此外,该技术还可用于胃镜手术导航,帮助医生更精准地定位病灶,提高手术成功率。未来,该技术有望推广到其他内窥镜检查领域。

📄 摘要(原文)

Enabling the synthesis of arbitrarily novel viewpoint images within a patient's stomach from pre-captured monocular gastroscopic images is a promising topic in stomach diagnosis. Typical methods to achieve this objective integrate traditional 3D reconstruction techniques, including structure-from-motion (SfM) and Poisson surface reconstruction. These methods produce explicit 3D representations, such as point clouds and meshes, thereby enabling the rendering of the images from novel viewpoints. However, the existence of low-texture and non-Lambertian regions within the stomach often results in noisy and incomplete reconstructions of point clouds and meshes, hindering the attainment of high-quality image rendering. In this paper, we apply the emerging technique of neural radiance fields (NeRF) to monocular gastroscopic data for synthesizing photo-realistic images for novel viewpoints. To address the performance degradation due to view sparsity in local regions of monocular gastroscopy, we incorporate geometry priors from a pre-reconstructed point cloud into the training of NeRF, which introduces a novel geometry-based loss to both pre-captured observed views and generated unobserved views. Compared to other recent NeRF methods, our approach showcases high-fidelity image renderings from novel viewpoints within the stomach both qualitatively and quantitatively.