Multi-View Deformable Convolution Meets Visual Mamba for Coronary Artery Segmentation
作者: Xiaochan Yuan, Pai Zeng
分类: cs.CV
发布日期: 2026-03-23
💡 一句话要点
提出MDSVM-UNet,结合多视角可变形卷积与视觉Mamba用于冠状动脉分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 冠状动脉分割 可变形卷积 视觉Mamba 多视角学习 医学图像分割
📋 核心要点
- 传统CNN难以捕捉血管长程依赖,ViT计算量大,限制了其在临床环境中的应用。
- 提出MDSVM-UNet,结合多方向蛇形卷积(MDSConv)和残差视觉Mamba(RVM),高效建模长程依赖。
- 两阶段分割策略,先粗分割引导块提取,再精细分割恢复细节,抑制假阳性。
📝 摘要(中文)
从计算机断层扫描血管造影(CTA)图像中精确分割冠状动脉对于心血管疾病的诊断和治疗计划至关重要。然而,由于血管固有的多分支和细长管状形态,以及前景血管和背景组织之间严重的类别不平衡,冠状动脉分割仍然具有挑战性。传统的基于卷积神经网络(CNN)的方法难以捕捉空间上遥远的血管结构之间的长程依赖关系,而基于视觉Transformer(ViT)的方法会产生过高的计算开销,阻碍了在资源受限的临床环境中的部署。受状态空间模型(SSM)在以线性复杂度有效建模长程序列依赖关系方面的成功启发,我们提出了一种新的两阶段冠状动脉分割框架MDSVM-UNet,该框架协同集成了多方向蛇形卷积(MDSConv)与残差视觉Mamba(RVM)。在编码阶段,我们引入了MDSConv,这是一个可变形卷积模块,可以学习沿三个正交解剖平面(矢状面、冠状面和轴向面)的自适应偏移,从而实现全面的多视角特征融合,忠实地捕捉冠状血管的细长和弯曲几何形状。在解码阶段,我们设计了一个基于RVM的上采样解码器块,该块利用选择性状态空间机制来建模切片间的长程依赖关系,同时保持线性计算复杂度。此外,我们提出了一种渐进的两阶段分割策略:第一阶段执行粗略的全图像分割以指导智能块提取,而第二阶段执行精细的块级分割以恢复血管细节并抑制假阳性。
🔬 方法详解
问题定义:论文旨在解决冠状动脉在CTA图像中精确分割的问题。现有方法,如CNN,难以捕捉血管的长程依赖关系,而ViT计算量过大,不适用于资源受限的临床环境。因此,需要一种既能有效建模长程依赖,又能保持较低计算复杂度的分割方法。
核心思路:论文的核心思路是结合多视角可变形卷积和视觉Mamba,利用多视角可变形卷积提取血管的几何特征,并利用视觉Mamba高效建模长程依赖关系。通过两阶段分割策略,先进行粗分割,再进行精细分割,从而提高分割精度和效率。
技术框架:MDSVM-UNet是一个两阶段的分割框架,包括编码阶段和解码阶段。在编码阶段,使用MDSConv模块提取多视角特征。在解码阶段,使用RVM-based upsampling decoder block进行上采样。整个框架采用UNet结构,通过跳跃连接将编码器和解码器的特征进行融合。
关键创新:论文的关键创新点在于:1) 提出了MDSConv模块,通过学习三个正交解剖平面的自适应偏移,实现多视角特征融合;2) 设计了RVM-based upsampling decoder block,利用选择性状态空间机制建模长程依赖关系,同时保持线性计算复杂度;3) 提出了两阶段分割策略,提高了分割精度和效率。与现有方法相比,MDSVM-UNet能够更有效地捕捉血管的几何特征和长程依赖关系,同时具有较低的计算复杂度。
关键设计:MDSConv模块学习三个正交解剖平面(矢状面、冠状面和轴向面)的自适应偏移,具体实现方式未知。RVM-based upsampling decoder block的具体结构和参数设置未知。两阶段分割策略中,粗分割和精细分割的具体实现方式和参数设置未知。损失函数未知。
🖼️ 关键图片
📊 实验亮点
论文提出了MDSVM-UNet,但摘要中没有提供具体的实验结果和性能数据,例如在公开数据集上的分割精度(Dice系数、IoU等)以及与现有方法的对比结果。因此,实验亮点未知。
🎯 应用场景
该研究成果可应用于心血管疾病的诊断和治疗计划,例如,辅助医生进行冠状动脉狭窄程度的评估、血管支架的规划等。该方法有望提高诊断的准确性和效率,并为患者提供更个性化的治疗方案。未来,该技术还可能扩展到其他血管或管状结构的分割任务中。
📄 摘要(原文)
Accurate segmentation of coronary arteries from computed tomography angiography (CTA) images is of paramount clinical importance for the diagnosis and treatment planning of cardiovascular diseases. However, coronary artery segmentation remains challenging due to the inherent multi-branching and slender tubular morphology of the vasculature, compounded by severe class imbalance between foreground vessels and background tissue. Conventional convolutional neural network (CNN)-based approaches struggle to capture long-range dependencies among spatially distant vascular structures, while Vision Transformer (ViT)-based methods incur prohibitive computational overhead that hinders deployment in resource-constrained clinical settings. Motivated by the recent success of state space models (SSMs) in efficiently modeling long-range sequential dependencies with linear complexity, we propose MDSVM-UNet, a novel two-stage coronary artery segmentation framework that synergistically integrates multidirectional snake convolution (MDSConv) with residual visual Mamba (RVM). In the encoding stage, we introduce MDSConv, a deformable convolution module that learns adaptive offsets along three orthogonal anatomical planes -- sagittal, coronal, and axial -- thereby enabling comprehensive multi-view feature fusion that faithfully captures the elongated and tortuous geometry of coronary vessels. In the decoding stage, we design an RVM-based upsampling decoder block that leverages selective state space mechanisms to model inter-slice long-range dependencies while preserving linear computational complexity. Furthermore, we propose a progressive two-stage segmentation strategy: the first stage performs coarse whole-image segmentation to guide intelligent block extraction, while the second stage conducts fine-grained block-level segmentation to recover vascular details and suppress false positives..