Intensity-Spatial Dual Masked Autoencoder for Multi-Scale Feature Learning in Chest CT Segmentation

作者: Yuexing Ding, Jun Wang, Hongbing Lyu

分类: eess.IV, cs.CV

发布日期: 2024-11-20 (更新: 2025-02-14)

备注: During further verification, we found that due to operational errors, a small number of images in the dataset used for training appeared in the validation set, which led to inaccurate main conclusions. We are correcting these problems and plan to withdraw this paper.

🔗 代码/项目: GITHUB

💡 一句话要点

提出强度-空间双掩码自编码器(ISD-MAE)用于胸部CT多尺度特征学习与分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 医学图像分割 胸部CT 掩码自编码器 多尺度特征学习 对比学习

📋 核心要点

医学图像分割面临病灶特征弱、边界模糊以及多尺度特征的挑战，现有方法难以有效提取这些特征。
ISD-MAE通过双分支结构，分别进行强度和空间掩码，并结合对比学习，增强模型对组织特征和边界细节的学习能力。
实验表明，ISD-MAE在2D胸部CT分割任务中表现出色，尤其在COVID19 LESION数据集上Dice系数达到90.10%。

📝 摘要（中文）

本文针对医学图像分割中病灶特征不明显、边界模糊以及多尺度特征等挑战，提出了一种改进方法，即强度-空间双掩码自编码器(ISD-MAE)。该方法基于组织对比半掩码自编码器，引入一个掩码自编码器(MAE)分支，对胸部CT图像执行强度掩码和空间掩码操作，以进行多尺度特征学习和分割任务。该模型采用双分支结构和对比学习，增强了学习组织特征和边界细节的能力。在多个2D和3D数据集上进行的实验结果表明，ISD-MAE在2D肺炎和纵隔肿瘤分割任务中显著优于其他方法。例如，在COVID19 LESION数据集上，Dice系数达到90.10%，并且性能相对稳定。然而，在3D数据集上仍有改进空间。为此，提出了改进方向，包括优化损失函数、使用增强的3D卷积块以及从多个角度处理数据集。

🔬 方法详解

问题定义：医学图像分割，特别是胸部CT图像分割，面临着病灶特征不明显、边界模糊以及病灶多尺度等问题。现有方法在提取这些具有挑战性的特征时表现不足，导致分割精度不高。

核心思路：论文的核心思路是利用双分支掩码自编码器，分别从强度和空间两个维度对CT图像进行特征提取。通过强度掩码关注组织对比信息，空间掩码关注病灶的空间结构信息。结合对比学习，促使模型学习到更鲁棒、更具区分性的特征表示。

技术框架：ISD-MAE模型包含两个主要分支：一个基于组织对比的半掩码自编码器分支和一个标准的掩码自编码器(MAE)分支。两个分支分别对输入CT图像进行强度和空间掩码。两个分支提取的特征经过融合后，用于分割任务。整个框架采用端到端的方式进行训练。

关键创新：该方法最重要的创新点在于提出了强度-空间双掩码策略，并将其集成到自编码器框架中。与传统的单分支掩码自编码器相比，双掩码策略能够更全面地捕捉图像的特征信息，从而提高分割精度。此外，结合对比学习进一步提升了特征的区分性。

关键设计：在具体实现上，强度掩码和空间掩码的比例是需要调整的关键参数。损失函数包括分割损失（如Dice Loss或Cross-Entropy Loss）和对比学习损失。网络结构方面，可以使用标准的卷积神经网络或Transformer结构作为编码器和解码器。对于3D数据，可以使用3D卷积块。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ISD-MAE在2D胸部CT分割任务中取得了显著的性能提升。在COVID19 LESION数据集上，Dice系数达到了90.10%，超过了其他对比方法。此外，该方法在纵隔肿瘤分割任务中也表现出色。虽然在3D数据集上仍有提升空间，但2D结果已经证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于肺炎、肺结节、纵隔肿瘤等胸部疾病的计算机辅助诊断与治疗。通过精确分割病灶区域，医生可以更准确地评估病情、制定治疗方案，并进行手术规划。该技术还有潜力应用于大规模胸部CT图像的自动筛查，提高诊断效率。

📄 摘要（原文）

In the field of medical image segmentation, challenges such as indistinct lesion features, ambiguous boundaries,and multi-scale characteristics have long revailed. This paper proposes an improved method named Intensity-Spatial Dual Masked AutoEncoder (ISD-MAE). Based on the tissue-contrast semi-masked autoencoder, a Masked AutoEncoder (MAE) branch is introduced to perform intensity masking and spatial masking operations on chest CT images for multi-scale feature learning and segmentation tasks. The model utilizes a dual-branch structure and contrastive learning to enhance the ability to learn tissue features and boundary details. Experiments are conducted on multiple 2D and 3D datasets. The results show that ISD-MAE significantly outperforms other methods in 2D pneumonia and mediastinal tumor segmentation tasks. For example, the Dice score reaches 90.10% on the COVID19 LESION dataset, and the performance is relatively stable. However, there is still room for improvement on 3D datasets. In response to this, improvement directions are proposed, including optimizing the loss function, using enhanced 3D convolution blocks, and processing datasets from multiple perspectives.Our code is available at:https://github.com/prowontheus/ISD-MAE.

Intensity-Spatial Dual Masked Autoencoder for Multi-Scale Feature Learning in Chest CT Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理