GaSpCT: Gaussian Splatting for Novel CT Projection View Synthesis

📄 arXiv: 2404.03126v1 📥 PDF

作者: Emmanouil Nikolakakis, Utkarsh Gupta, Jonathan Vengosh, Justin Bui, Razvan Marinescu

分类: eess.IV, cs.CV

发布日期: 2024-04-04

备注: Under Review Process for MICCAI 2024


💡 一句话要点

提出GaSpCT以解决CT扫描视图合成问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 计算机断层扫描 视图合成 高斯点云 稀疏视图重建 医学影像 深度学习

📋 核心要点

  1. 现有CT扫描方法在视图合成上依赖于运动结构技术,导致扫描时间长且辐射剂量高。
  2. GaSpCT通过高斯点云框架实现CT新视图合成,避免了运动结构方法,简化了流程。
  3. 实验结果显示,GaSpCT生成的新视图与原始投影视图高度一致,且训练时间和内存需求均显著降低。

📝 摘要(中文)

我们提出了GaSpCT,一种用于计算机断层扫描(CT)的新视图合成和3D场景表示方法。该方法基于有限的2D图像投影生成新视图,且无需运动结构(SfM)方法,从而减少扫描时间和患者辐射剂量。我们通过引入两种稀疏性促进正则化器(beta损失和全变差损失)来调整损失函数,以增强背景和前景的区分。我们使用均匀先验分布初始化3D空间中的高斯位置。通过对帕金森病进展标志倡议(PPMI)数据集中的脑CT扫描进行评估,结果表明渲染的新视图与模拟扫描的原始投影视图高度匹配,并且在性能上优于其他隐式3D场景表示方法。此外,与基于神经网络的稀疏视图CT图像重建相比,我们观察到训练时间显著减少,内存需求也减少了17%。

🔬 方法详解

问题定义:本论文旨在解决现有CT扫描中视图合成的效率低下和辐射剂量过高的问题。现有方法通常依赖于运动结构(SfM)技术,增加了扫描时间和患者的辐射暴露。

核心思路:我们提出的GaSpCT方法利用高斯点云框架进行新视图合成,基于有限的2D图像投影生成3D场景表示,避免了复杂的SfM过程,从而提高了效率并降低了辐射剂量。

技术框架:GaSpCT的整体架构包括数据输入、损失函数设计、高斯位置初始化和视图合成四个主要模块。首先,输入有限的2D投影数据,然后通过调整损失函数来优化模型,接着在3D空间中初始化高斯位置,最后生成新视图。

关键创新:本研究的主要创新在于将高斯点云框架应用于CT新视图合成,显著简化了传统方法的复杂性,并通过引入稀疏性促进正则化器增强了背景与前景的区分能力。

关键设计:我们在损失函数中引入了beta损失和全变差损失,以促进稀疏性,并通过均匀先验分布初始化高斯位置,确保模型在3D空间中的有效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GaSpCT生成的新视图与原始投影视图的匹配度高,且在性能上优于其他隐式3D场景表示方法。训练时间较基于神经网络的图像合成方法显著减少,内存需求降低了17%。这些结果表明GaSpCT在CT图像重建中的有效性和优势。

🎯 应用场景

GaSpCT方法在医学影像领域具有广泛的应用潜力,尤其是在CT扫描中。通过减少扫描时间和辐射剂量,该方法可以提高患者的安全性和舒适度。此外,GaSpCT还可以应用于其他需要快速图像合成和高效数据处理的领域,如虚拟现实和增强现实。未来,该技术有望推动更高效的医学成像技术的发展。

📄 摘要(原文)

We present GaSpCT, a novel view synthesis and 3D scene representation method used to generate novel projection views for Computer Tomography (CT) scans. We adapt the Gaussian Splatting framework to enable novel view synthesis in CT based on limited sets of 2D image projections and without the need for Structure from Motion (SfM) methodologies. Therefore, we reduce the total scanning duration and the amount of radiation dose the patient receives during the scan. We adapted the loss function to our use-case by encouraging a stronger background and foreground distinction using two sparsity promoting regularizers: a beta loss and a total variation (TV) loss. Finally, we initialize the Gaussian locations across the 3D space using a uniform prior distribution of where the brain's positioning would be expected to be within the field of view. We evaluate the performance of our model using brain CT scans from the Parkinson's Progression Markers Initiative (PPMI) dataset and demonstrate that the rendered novel views closely match the original projection views of the simulated scan, and have better performance than other implicit 3D scene representations methodologies. Furthermore, we empirically observe reduced training time compared to neural network based image synthesis for sparse-view CT image reconstruction. Finally, the memory requirements of the Gaussian Splatting representations are reduced by 17% compared to the equivalent voxel grid image representations.