Learning Generalizable Features for Tibial Plateau Fracture Segmentation Using Masked Autoencoder and Limited Annotations

📄 arXiv: 2502.02862v2 📥 PDF

作者: Peiyan Yue, Die Cai, Chu Guo, Mengxing Liu, Jun Xia, Yi Wang

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-02-05 (更新: 2025-04-09)

备注: 5 pages, 6 figures. Accepted to IEEE EMBC 2025


💡 一句话要点

提出基于掩码自编码器和少量标注的胫骨平台骨折分割方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 胫骨平台骨折分割 掩码自编码器 半监督学习 医学影像分析 CT图像 深度学习 特征学习

📋 核心要点

  1. 现有胫骨平台骨折分割方法依赖大量标注数据,标注过程耗时且需要专业知识,泛化能力有限。
  2. 提出基于掩码自编码器(MAE)的预训练和微调策略,利用未标注数据学习骨骼结构和骨折细节。
  3. 实验结果表明,该方法仅使用少量标注数据即可达到优异的分割性能,并具有良好的迁移性。

📝 摘要(中文)

从计算机断层扫描(CT)图像中精确自动分割胫骨平台骨折(TPF)需要大量标注数据来训练深度学习模型,但获取这些标注数据面临独特的挑战。该过程需要专家知识来识别不同的骨折模式、评估严重程度并考虑个体解剖变异,使得标注过程非常耗时且昂贵。虽然半监督学习方法可以利用未标注数据,但现有方法通常难以应对骨折形态的复杂性和变异性,以及跨数据集的有限泛化能力。为了解决这些问题,我们提出了一种基于掩码自编码器(MAE)的有效训练策略,用于在CT图像中进行精确的TPF分割。我们的方法利用MAE预训练从未标注数据中捕获全局骨骼结构和细粒度的骨折细节,然后使用少量标注数据进行微调。这种策略减少了对大量标注的依赖,同时增强了模型学习可泛化和可迁移特征的能力。该方法在包含180个TPF的CT扫描的内部数据集上进行了评估。实验结果表明,我们的方法始终优于半监督方法,仅使用20个标注病例,就实现了95.81%的平均Dice相似系数(DSC)、1.91mm的平均对称表面距离(ASSD)和9.42mm的Hausdorff距离(95HD)。此外,我们的方法在应用于另一个公共骨盆CT数据集(包含髋部骨折)时,表现出很强的可迁移性,突出了其在更广泛的骨折分割任务中的潜力。

🔬 方法详解

问题定义:论文旨在解决胫骨平台骨折CT图像分割中,深度学习模型对大量标注数据的依赖问题。现有方法在处理骨折形态复杂性和变异性时,泛化能力不足,难以应用于不同数据集。

核心思路:论文的核心思路是利用掩码自编码器(MAE)进行预训练,从未标注数据中学习通用的骨骼结构和骨折特征表示。通过预训练,模型能够更好地理解骨骼的整体结构和局部细节,从而减少对大量标注数据的需求。

技术框架:该方法主要包含两个阶段:预训练阶段和微调阶段。在预训练阶段,使用MAE从未标注的CT图像中学习骨骼特征。MAE通过随机掩盖部分图像区域,并训练模型重建被掩盖的区域,从而学习到图像的内在结构。在微调阶段,使用少量标注数据对预训练的模型进行微调,以适应胫骨平台骨折分割任务。

关键创新:该方法最重要的创新点在于利用MAE进行预训练,从而有效地从未标注数据中学习到可泛化的骨骼特征表示。与传统的半监督学习方法相比,MAE能够更好地捕捉图像的全局结构和局部细节,从而提高模型的分割性能和泛化能力。

关键设计:MAE的掩码比例设置为一个较高的值(具体数值未知),以迫使模型学习更鲁棒的特征表示。损失函数包括重建损失(用于预训练)和分割损失(用于微调)。网络结构基于Transformer架构(具体结构未知),以更好地捕捉图像的长程依赖关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在内部数据集上取得了显著的分割性能,平均Dice相似系数(DSC)达到95.81%,平均对称表面距离(ASSD)为1.91mm,Hausdorff距离(95HD)为9.42mm,且仅使用了20个标注病例。此外,该方法在公共骨盆CT数据集上表现出良好的迁移性,验证了其泛化能力。

🎯 应用场景

该研究成果可应用于医学影像辅助诊断领域,辅助医生进行胫骨平台骨折的精确分割和诊断,提高诊断效率和准确性。该方法具有良好的迁移性,可推广到其他骨折类型的分割任务中,具有广阔的应用前景。未来,该方法还可与其他临床信息结合,实现更智能化的骨折诊断和治疗方案制定。

📄 摘要(原文)

Accurate automated segmentation of tibial plateau fractures (TPF) from computed tomography (CT) requires large amounts of annotated data to train deep learning models, but obtaining such annotations presents unique challenges. The process demands expert knowledge to identify diverse fracture patterns, assess severity, and account for individual anatomical variations, making the annotation process highly time-consuming and expensive. Although semi-supervised learning methods can utilize unlabeled data, existing approaches often struggle with the complexity and variability of fracture morphologies, as well as limited generalizability across datasets. To tackle these issues, we propose an effective training strategy based on masked autoencoder (MAE) for the accurate TPF segmentation in CT. Our method leverages MAE pretraining to capture global skeletal structures and fine-grained fracture details from unlabeled data, followed by fine-tuning with a small set of labeled data. This strategy reduces the dependence on extensive annotations while enhancing the model's ability to learn generalizable and transferable features. The proposed method is evaluated on an in-house dataset containing 180 CT scans with TPF. Experimental results demonstrate that our method consistently outperforms semi-supervised methods, achieving an average Dice similarity coefficient (DSC) of 95.81%, average symmetric surface distance (ASSD) of 1.91mm, and Hausdorff distance (95HD) of 9.42mm with only 20 annotated cases. Moreover, our method exhibits strong transferability when applying to another public pelvic CT dataset with hip fractures, highlighting its potential for broader applications in fracture segmentation tasks.