DenoMamba: A fused state-space model for low-dose CT denoising
作者: Şaban Öztürk, Oğuz Can Duran, Tolga Çukur
分类: eess.IV, cs.AI, cs.CV
发布日期: 2024-09-19 (更新: 2024-12-15)
💡 一句话要点
DenoMamba:一种用于低剂量CT降噪的融合状态空间模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 低剂量CT降噪 状态空间模型 医学影像 深度学习 图像恢复
📋 核心要点
- 现有LDCT降噪方法在捕获长程上下文信息方面存在不足,导致图像恢复质量受限,尤其是在高分辨率CT图像中。
- DenoMamba利用状态空间模型(SSM)高效地捕获医学图像中的短程和长程上下文,并设计了空间和通道SSM模块。
- 实验结果表明,DenoMamba在LDCT图像降噪任务中,显著优于现有方法,PSNR、SSIM和RMSE等指标均有提升。
📝 摘要(中文)
低剂量计算机断层扫描(LDCT)降低了与辐射暴露相关的潜在风险,同时依赖于先进的降噪算法来保持重建图像的诊断质量。LDCT降噪的主流方法是基于神经网络模型,该模型学习数据驱动的图像先验,以将剂量降低引起的噪声与潜在的组织信号分离。这些先验的保真度取决于模型捕获CT图像中明显的大量上下文特征的能力。早期的卷积神经网络(CNN)非常擅长有效地捕获短程空间上下文,但其有限的感受野降低了对长距离交互的敏感性。虽然最近提出了基于自注意力机制的Transformer来提高对长程上下文的敏感性,但由于模型复杂性高,尤其是在高分辨率CT图像中,它们可能会遭受次优的性能和效率。为了高质量地恢复LDCT图像,我们提出了一种基于状态空间建模(SSM)的新型降噪方法DenoMamba,它可以有效地捕获医学图像中的短程和长程上下文。DenoMamba采用具有编码器-解码器阶段的沙漏架构,使用空间SSM模块来编码空间上下文,并使用配备辅助门控卷积网络的新型通道SSM模块来编码每个阶段的通道上下文潜在特征。然后,通过卷积融合模块(CFM)将来自两个模块的特征图与低级输入特征进行整合。在剂量降低25%和10%的LDCT数据集上进行的综合实验表明,DenoMamba优于最先进的降噪器,在恢复的图像质量方面平均提高了1.4dB PSNR、1.1% SSIM和1.6% RMSE。
🔬 方法详解
问题定义:论文旨在解决低剂量CT(LDCT)图像的降噪问题。现有的卷积神经网络(CNN)虽然擅长捕获短程空间上下文,但感受野有限,无法有效利用长程依赖关系。Transformer虽然可以捕获长程依赖,但计算复杂度高,在高分辨率CT图像上效率较低。
核心思路:论文的核心思路是利用状态空间模型(SSM)同时高效地捕获短程和长程上下文信息。通过设计空间SSM和通道SSM模块,分别处理空间和通道维度的上下文信息,并使用卷积融合模块(CFM)整合不同尺度的特征。
技术框架:DenoMamba采用沙漏形的编码器-解码器架构。在每个阶段,首先使用空间SSM模块编码空间上下文,然后使用通道SSM模块编码通道上下文的潜在特征。通道SSM模块配备了一个辅助门控卷积网络。最后,使用卷积融合模块(CFM)将来自空间SSM、通道SSM和低层输入特征进行融合。
关键创新:DenoMamba的关键创新在于融合了空间SSM和通道SSM,并结合卷积融合模块。空间SSM负责捕获空间上下文,通道SSM负责捕获通道上下文,而CFM则负责整合不同来源的特征。这种设计使得DenoMamba能够有效地利用图像中的短程和长程依赖关系,从而提高降噪效果。与现有方法相比,DenoMamba在计算效率和性能之间取得了更好的平衡。
关键设计:通道SSM模块中使用了门控卷积网络,用于增强通道特征的表达能力。卷积融合模块(CFM)采用卷积操作将不同模块的特征进行融合,并引入残差连接以避免梯度消失。具体的参数设置和损失函数在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
DenoMamba在25%和10%剂量降低的LDCT数据集上进行了实验,结果表明其性能优于最先进的降噪方法。具体而言,DenoMamba在恢复的图像质量方面平均提高了1.4dB PSNR、1.1% SSIM和1.6% RMSE。这些结果表明DenoMamba在LDCT图像降噪方面具有显著的优势。
🎯 应用场景
DenoMamba可应用于医学影像领域,特别是低剂量CT扫描。通过提高LDCT图像的质量,可以降低患者接受的辐射剂量,同时保证诊断的准确性。该方法具有广泛的应用前景,可以推广到其他医学影像模态的降噪任务中,例如MRI和PET。
📄 摘要(原文)
Low-dose computed tomography (LDCT) lower potential risks linked to radiation exposure while relying on advanced denoising algorithms to maintain diagnostic quality in reconstructed images. The reigning paradigm in LDCT denoising is based on neural network models that learn data-driven image priors to separate noise evoked by dose reduction from underlying tissue signals. Naturally, the fidelity of these priors depend on the model's ability to capture the broad range of contextual features evident in CT images. Earlier convolutional neural networks (CNN) are highly adept at efficiently capturing short-range spatial context, but their limited receptive fields reduce sensitivity to interactions over longer distances. Although transformers based on self-attention mechanisms have recently been posed to increase sensitivity to long-range context, they can suffer from suboptimal performance and efficiency due to elevated model complexity, particularly for high-resolution CT images. For high-quality restoration of LDCT images, here we introduce DenoMamba, a novel denoising method based on state-space modeling (SSM), that efficiently captures short- and long-range context in medical images. Following an hourglass architecture with encoder-decoder stages, DenoMamba employs a spatial SSM module to encode spatial context and a novel channel SSM module equipped with a secondary gated convolution network to encode latent features of channel context at each stage. Feature maps from the two modules are then consolidated with low-level input features via a convolution fusion module (CFM). Comprehensive experiments on LDCT datasets with 25\% and 10\% dose reduction demonstrate that DenoMamba outperforms state-of-the-art denoisers with average improvements of 1.4dB PSNR, 1.1% SSIM, and 1.6% RMSE in recovered image quality.