Physics-Driven Autoregressive State Space Models for Medical Image Reconstruction
作者: Bilal Kabas, Fuat Arslan, Valiyeh A. Nezhad, Saban Ozturk, Emine U. Saritas, Tolga Çukur
分类: eess.IV, cs.CV
发布日期: 2024-12-12 (更新: 2025-08-20)
备注: 10 pages, 10 figures
💡 一句话要点
提出MambaRoll,一种物理驱动的自回归状态空间模型,用于高质量医学图像重建。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 医学图像重建 自回归模型 状态空间模型 物理驱动 多尺度学习 深度学习 MRI CT
📋 核心要点
- 医学图像重建面临从不完整数据中恢复解剖结构的挑战,现有方法难以有效区分伪影和真实信号。
- MambaRoll提出一种物理驱动的自回归状态空间模型,通过多尺度上下文传播和数据一致性约束提高重建质量。
- 实验表明,MambaRoll在加速MRI和稀疏视图CT重建中,性能优于CNN、Transformer和SSM等先进方法。
📝 摘要(中文)
从欠采样的医学图像数据中重建图像是一个不适定的逆问题,需要从不完整的测量数据中准确恢复解剖结构。物理驱动(PD)的网络模型通过将数据一致性机制与学习到的先验知识相结合,在该任务中获得了显著的地位,与纯数据驱动的方法相比,性能有所提高。然而,重建质量仍然取决于网络区分伪影和真实解剖信号的能力,这两者都表现出复杂的多尺度上下文结构。卷积神经网络(CNN)捕获局部相关性,但通常难以处理非局部依赖性。虽然Transformer旨在缓解这一限制,但实际应用需要在设计上做出妥协,以降低计算成本,平衡局部和非局部敏感性,有时导致性能与CNN相当。为了解决这些挑战,我们提出了一种新颖的物理驱动的自回归状态空间模型(SSM)MambaRoll,用于高保真和高效的图像重建。MambaRoll采用展开的架构,其中每个级联自回归地预测更精细尺度的特征图,并以更粗糙尺度的表示为条件,从而实现一致的多尺度上下文传播。每个阶段都建立在特定尺度的PD-SSM模块的层次结构上,这些模块捕获空间依赖性,同时通过残差校正强制执行数据一致性。为了进一步提高尺度感知学习,我们引入了一种深度多尺度解码(DMSD)损失,该损失在中间空间尺度上提供监督,与自回归设计保持一致。在加速MRI和稀疏视图CT重建的演示表明,MambaRoll始终优于最先进的基于CNN、Transformer和SSM的方法。
🔬 方法详解
问题定义:医学图像重建任务旨在从欠采样或稀疏数据中恢复高质量图像。现有方法,如CNN和Transformer,在捕捉长距离依赖和区分伪影与真实解剖结构方面存在局限性,导致重建质量受限。
核心思路:MambaRoll的核心在于利用自回归状态空间模型(SSM)的强大序列建模能力,结合物理驱动的框架,实现高效且高质量的图像重建。通过逐层预测更精细尺度的特征图,并以粗尺度信息为条件,实现多尺度信息的有效融合。
技术框架:MambaRoll采用展开的架构,包含多个级联的PD-SSM模块。每个模块负责预测特定尺度的特征图,并利用残差校正强制执行数据一致性。整体流程是从粗到细逐步重建图像,利用前一阶段的输出作为下一阶段的输入,实现自回归的上下文传递。
关键创新:MambaRoll的关键创新在于将自回归状态空间模型与物理驱动的框架相结合,并引入深度多尺度解码(DMSD)损失。自回归结构能够有效捕捉长距离依赖,物理驱动的框架保证数据一致性,DMSD损失则在不同尺度上提供监督,提升尺度感知能力。
关键设计:MambaRoll的关键设计包括:1) 层次化的PD-SSM模块,针对不同尺度进行优化;2) 残差校正机制,用于强制数据一致性;3) 深度多尺度解码(DMSD)损失,在中间尺度提供监督信号,提升训练效果。具体的参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MambaRoll在加速MRI和稀疏视图CT重建任务中, consistently 优于 state-of-the-art 的 CNN-, transformer-, 和 SSM-based 方法。虽然摘要中没有给出具体的性能数据和提升幅度,但强调了其在不同模态和采样方式下的优越性,表明了该方法具有很强的泛化能力。
🎯 应用场景
MambaRoll在医学图像重建领域具有广泛的应用前景,可以应用于加速MRI、低剂量CT等场景,降低扫描时间和辐射剂量,提高诊断效率和准确性。该方法有望推动医学影像技术的发展,为临床诊断和治疗提供更可靠的图像支持。
📄 摘要(原文)
Medical image reconstruction from undersampled acquisitions is an ill-posed inverse problem requiring accurate recovery of anatomical structures from incomplete measurements. Physics-driven (PD) network models have gained prominence for this task by integrating data-consistency mechanisms with learned priors, enabling improved performance over purely data-driven approaches. However, reconstruction quality still hinges on the network's ability to disentangle artifacts from true anatomical signals-both of which exhibit complex, multi-scale contextual structure. Convolutional neural networks (CNNs) capture local correlations but often struggle with non-local dependencies. While transformers aim to alleviate this limitation, practical implementations involve design compromises to reduce computational cost by balancing local and non-local sensitivity, occasionally resulting in performance comparable to CNNs. To address these challenges, we propose MambaRoll, a novel physics-driven autoregressive state space model (SSM) for high-fidelity and efficient image reconstruction. MambaRoll employs an unrolled architecture where each cascade autoregressively predicts finer-scale feature maps conditioned on coarser-scale representations, enabling consistent multi-scale context propagation. Each stage is built on a hierarchy of scale-specific PD-SSM modules that capture spatial dependencies while enforcing data consistency through residual correction. To further improve scale-aware learning, we introduce a Deep Multi-Scale Decoding (DMSD) loss, which provides supervision at intermediate spatial scales in alignment with the autoregressive design. Demonstrations on accelerated MRI and sparse-view CT reconstructions show that MambaRoll consistently outperforms state-of-the-art CNN-, transformer-, and SSM-based methods.