Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation

作者: Diego Adame, Jose A. Nunez, Fabian Vazquez, Nayeli Gurrola, Huimin Li, Haoteng Tang, Bin Fu, Pengfei Gu

分类: eess.IV, cs.CV

发布日期: 2025-05-09

💡 一句话要点

Topo-VM-UNetV2：将拓扑信息编码进Vision Mamba UNet用于息肉分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 息肉分割 拓扑信息 持久同调 Vision Mamba 医学图像分析

📋 核心要点

现有CNN方法在长程依赖建模上存在局限，Transformer计算复杂度高，Mamba虽然高效但缺乏拓扑特征的捕捉能力。
提出Topo-VM-UNetV2，通过计算概率图的持久同调，生成拓扑注意力图，并融入Mamba架构，增强拓扑特征学习。
在五个公共数据集上进行了广泛实验，验证了Topo-VM-UNetV2的有效性，能够提升息肉分割的准确性。

📝 摘要（中文）

卷积神经网络(CNN)和基于Transformer的架构是息肉分割领域两种主流的深度学习模型。然而，CNN在建模长程依赖关系方面能力有限，而Transformer则面临二次方级别的计算复杂度。近年来，诸如Mamba之类的状态空间模型(SSM)被认为是息肉分割的一个有前景的方法，因为它不仅能有效地建模长程交互，而且保持线性计算复杂度。然而，基于Mamba的架构仍然难以捕捉拓扑特征（例如，连通分量、环、空洞），导致不准确的边界描绘和息肉分割。为了解决这些局限性，我们提出了一种名为Topo-VM-UNetV2的新方法，该方法将拓扑特征编码到基于Mamba的最先进的息肉分割模型VM-UNetV2中。我们的方法包括两个阶段：第一阶段，使用VM-UNetV2生成训练和测试图像的概率图(PM)，然后用于计算拓扑注意力图。具体来说，我们首先计算PM的持久同调图，然后通过将每个拓扑特征的持久性值（即死亡时间和出生时间之间的差异）分配给其出生位置来生成持久性得分图，最后我们使用sigmoid函数将持久性得分转换为注意力权重。第二阶段，将这些拓扑注意力图集成到VM-UNetV2的语义和细节注入(SDI)模块中，形成拓扑引导的语义和细节注入(Topo-SDI)模块，以增强分割结果。在五个公共息肉分割数据集上的大量实验证明了我们提出的方法的有效性。代码将会公开。

🔬 方法详解

问题定义：现有息肉分割方法，如CNN和Transformer，在建模长程依赖和计算复杂度上存在瓶颈。Mamba虽然在效率上有所提升，但忽略了图像的拓扑结构，导致分割边界不准确，难以区分具有复杂拓扑结构的息肉。

核心思路：论文的核心思路是将拓扑信息显式地编码到Mamba架构中，利用持久同调提取图像的拓扑特征，并将其转化为注意力图，引导网络关注重要的拓扑结构，从而提高分割精度。

技术框架：Topo-VM-UNetV2分为两个阶段。第一阶段，使用VM-UNetV2生成概率图(PM)。然后，对PM进行持久同调分析，计算持久性图，并生成持久性得分图，最后通过Sigmoid函数将其转换为拓扑注意力图。第二阶段，将拓扑注意力图集成到VM-UNetV2的语义和细节注入(SDI)模块中，形成Topo-SDI模块，增强分割结果。

关键创新：该方法最重要的创新点在于将拓扑信息融入到Mamba架构中。通过持久同调提取拓扑特征，并将其转化为注意力图，使得网络能够关注图像的拓扑结构，从而提高分割精度。与现有方法相比，该方法能够更好地捕捉图像的拓扑信息，并将其用于指导分割。

关键设计：关键设计包括：1) 使用VM-UNetV2作为基础架构，利用其强大的特征提取能力。2) 使用持久同调计算拓扑特征，并将其转化为注意力图。持久性值（死亡时间-出生时间）被用来衡量拓扑特征的重要性。3) 将拓扑注意力图集成到SDI模块中，实现语义信息、细节信息和拓扑信息的融合。Sigmoid函数用于将持久性得分映射到0-1之间的注意力权重。

🖼️ 关键图片

📊 实验亮点

在五个公共息肉分割数据集上进行了广泛的实验，结果表明Topo-VM-UNetV2显著优于现有的方法。具体性能数据在论文中给出，相较于基线模型VM-UNetV2，在多个指标上均有提升，证明了拓扑信息编码的有效性。

🎯 应用场景

该研究成果可应用于医学图像分析领域，特别是息肉分割任务。通过提高息肉分割的准确性，可以辅助医生进行更精确的诊断和治疗计划。此外，该方法也可以推广到其他医学图像分割任务，例如肿瘤分割、器官分割等，具有广泛的应用前景。

📄 摘要（原文）

Convolutional neural network (CNN) and Transformer-based architectures are two dominant deep learning models for polyp segmentation. However, CNNs have limited capability for modeling long-range dependencies, while Transformers incur quadratic computational complexity. Recently, State Space Models such as Mamba have been recognized as a promising approach for polyp segmentation because they not only model long-range interactions effectively but also maintain linear computational complexity. However, Mamba-based architectures still struggle to capture topological features (e.g., connected components, loops, voids), leading to inaccurate boundary delineation and polyp segmentation. To address these limitations, we propose a new approach called Topo-VM-UNetV2, which encodes topological features into the Mamba-based state-of-the-art polyp segmentation model, VM-UNetV2. Our method consists of two stages: Stage 1: VM-UNetV2 is used to generate probability maps (PMs) for the training and test images, which are then used to compute topology attention maps. Specifically, we first compute persistence diagrams of the PMs, then we generate persistence score maps by assigning persistence values (i.e., the difference between death and birth times) of each topological feature to its birth location, finally we transform persistence scores into attention weights using the sigmoid function. Stage 2: These topology attention maps are integrated into the semantics and detail infusion (SDI) module of VM-UNetV2 to form a topology-guided semantics and detail infusion (Topo-SDI) module for enhancing the segmentation results. Extensive experiments on five public polyp segmentation datasets demonstrate the effectiveness of our proposed method. The code will be made publicly available.

Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理