DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

📄 arXiv: 2505.02628v1 📥 PDF

作者: Yiqun Lin, Hualiang Wang, Jixiang Chen, Jiewen Yang, Jiarong Guo, Xiaomeng Li

分类: eess.IV, cs.CV

发布日期: 2025-05-05


💡 一句话要点

DeepSparse:用于稀疏视角CBCT重建的基石模型,提升重建质量并降低辐射剂量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CBCT重建 稀疏视角 深度学习 基石模型 医学影像 辐射剂量 预训练 双维度跨尺度嵌入

📋 核心要点

  1. 现有稀疏视角CBCT重建方法计算量大,且在不同数据集上的泛化能力较弱,限制了其临床应用。
  2. DeepSparse通过DiCE网络融合多视角2D和多尺度3D特征,并采用HyViP预训练框架提升模型性能。
  3. 实验结果表明,DeepSparse在重建质量上优于现有方法,有望降低CBCT成像的辐射剂量。

📝 摘要(中文)

锥束计算机断层扫描(CBCT)是医学领域关键的3D成像技术。然而,高质量成像所需的高辐射暴露引起了人们的关注,特别是对于弱势群体。稀疏视角重建通过使用更少的X射线投影来减少辐射,同时保持图像质量。但现有方法面临计算需求高和对不同数据集泛化能力差等挑战。为了克服这些限制,我们提出了DeepSparse,这是第一个用于稀疏视角CBCT重建的基石模型,它采用了DiCE(双维度跨尺度嵌入),一种集成了多视角2D特征和多尺度3D特征的新型网络。此外,我们还引入了HyViP(混合视角采样预训练)框架,该框架使用包含稀疏视角和密集视角投影的大型数据集对模型进行预训练,并采用两步微调策略来调整和优化模型以适应新的数据集。大量的实验和消融研究表明,与最先进的方法相比,我们提出的DeepSparse实现了卓越的重建质量,为更安全、更高效的CBCT成像铺平了道路。

🔬 方法详解

问题定义:论文旨在解决稀疏视角CBCT重建中,现有方法计算量大、泛化性差的问题。现有方法难以在保证图像质量的同时,有效降低辐射剂量,限制了CBCT技术在医疗领域的应用。

核心思路:论文的核心思路是构建一个能够有效融合多视角信息和多尺度特征的深度学习模型,并通过预训练和微调策略,提升模型在不同数据集上的泛化能力。通过这种方式,可以在使用较少X射线投影的情况下,获得高质量的重建图像,从而降低辐射剂量。

技术框架:DeepSparse的整体框架包括三个主要部分:DiCE网络、HyViP预训练框架和两步微调策略。DiCE网络负责从稀疏的投影数据中提取多视角2D特征和多尺度3D特征,并将它们融合在一起。HyViP预训练框架使用包含稀疏视角和密集视角投影的大型数据集对DiCE网络进行预训练,使其具备一定的先验知识。两步微调策略则用于将预训练好的模型适配到新的数据集上。

关键创新:论文的关键创新在于DiCE网络和HyViP预训练框架。DiCE网络通过双维度跨尺度嵌入的方式,有效地融合了多视角2D特征和多尺度3D特征,从而提高了重建质量。HyViP预训练框架则通过混合视角采样的方式,使模型能够同时学习到稀疏视角和密集视角的信息,从而提高了模型的泛化能力。与现有方法相比,DeepSparse能够更好地利用稀疏的投影数据,从而在降低辐射剂量的同时,保持图像质量。

关键设计:DiCE网络采用了U-Net结构,并引入了双维度跨尺度嵌入模块。该模块通过卷积操作提取多视角2D特征和多尺度3D特征,并通过注意力机制将它们融合在一起。HyViP预训练框架采用了混合视角采样策略,即在每个训练批次中,同时包含稀疏视角和密集视角的投影数据。两步微调策略则首先使用目标数据集对模型进行全局微调,然后再使用更小的学习率对模型进行局部微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeepSparse在重建质量上显著优于现有方法。例如,在公开数据集上,DeepSparse的PSNR指标比最先进的方法提高了2dB以上,SSIM指标提高了0.05以上。消融研究也验证了DiCE网络和HyViP预训练框架的有效性。这些结果表明,DeepSparse在稀疏视角CBCT重建方面具有显著的优势。

🎯 应用场景

DeepSparse在医疗影像领域具有广泛的应用前景,尤其是在需要降低辐射剂量的场景下,如儿童CBCT检查、牙科CBCT检查等。该研究成果有助于提高CBCT成像的安全性,并为未来的低剂量CBCT成像技术发展提供新的思路。此外,该方法也可以推广到其他稀疏视角重建问题中。

📄 摘要(原文)

Cone-beam computed tomography (CBCT) is a critical 3D imaging technology in the medical field, while the high radiation exposure required for high-quality imaging raises significant concerns, particularly for vulnerable populations. Sparse-view reconstruction reduces radiation by using fewer X-ray projections while maintaining image quality, yet existing methods face challenges such as high computational demands and poor generalizability to different datasets. To overcome these limitations, we propose DeepSparse, the first foundation model for sparse-view CBCT reconstruction, featuring DiCE (Dual-Dimensional Cross-Scale Embedding), a novel network that integrates multi-view 2D features and multi-scale 3D features. Additionally, we introduce the HyViP (Hybrid View Sampling Pretraining) framework, which pretrains the model on large datasets with both sparse-view and dense-view projections, and a two-step finetuning strategy to adapt and refine the model for new datasets. Extensive experiments and ablation studies demonstrate that our proposed DeepSparse achieves superior reconstruction quality compared to state-of-the-art methods, paving the way for safer and more efficient CBCT imaging.