Automated Classification of First-Trimester Fetal Heart Views Using Ultrasound-Specific Self-Supervised Learning

📄 arXiv: 2512.24492v1 📥 PDF

作者: Youssef Megahed, Aylin Erman, Robin Ducharme, Mark C. Walker, Steven Hawken, Adrian D. C. Chan

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-12-30

备注: 7 pages, 4 figures


💡 一句话要点

提出基于超声自监督学习的USF-MAE模型,用于自动分类妊娠早期胎儿心脏视图

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 超声图像 胎儿心脏 图像分类 Vision Transformer

📋 核心要点

  1. 妊娠早期胎儿心脏超声图像分析面临小结构、低信噪比和操作者差异大的挑战,现有方法难以实现准确自动分类。
  2. 论文提出基于自监督学习的USF-MAE模型,利用大量未标记超声图像进行预训练,提升模型对超声图像特征的提取能力。
  3. 实验结果表明,USF-MAE在妊娠早期胎儿心脏视图分类任务中,相比传统监督学习方法,准确率和F1分数均有显著提升。

📝 摘要(中文)

先天性心脏病是最常见的先天性异常,也是新生儿发病和死亡的主要原因。妊娠早期胎儿超声心动图为早期检测提供了机会,但由于心脏结构小、信噪比低以及操作者之间差异大,因此该阶段的自动分析具有挑战性。本文评估了一种自监督超声基础模型USF-MAE,用于妊娠早期胎儿心脏视图分类。USF-MAE在超过37万张涵盖40多个解剖区域的未标记超声图像上,使用掩码自编码建模进行预训练,随后针对下游分类进行微调。作为概念验证,预训练的Vision Transformer编码器在一个包含6720张妊娠早期胎儿超声心动图的开源数据集上进行了微调,以分类五个类别:主动脉、房室血流、V形征、X形征和其他。模型性能与监督卷积神经网络基线(ResNet-18和ResNet-50)以及在自然图像(ImageNet-1k)上预训练的Vision Transformer(ViT-B/16)模型进行了基准测试。所有模型均使用相同的预处理、数据分割和优化协议进行训练和评估。在独立测试集上,USF-MAE在所有评估指标上均实现了最高性能,准确率为90.57%,精确率为91.15%,召回率为90.57%,F1分数为90.71%。与最强的基线ResNet-18相比,准确率提高了+2.03%,F1分数提高了+1.98%。所提出的方法在不依赖于激进的图像预处理或感兴趣区域裁剪的情况下,表现出强大的性能,并提高了对非诊断帧的区分能力。

🔬 方法详解

问题定义:论文旨在解决妊娠早期胎儿心脏超声图像的自动分类问题。现有方法,如传统的监督学习方法,由于缺乏大量标注数据,以及超声图像本身的特性(低信噪比、小结构等),难以达到理想的分类精度。此外,不同操作者之间的差异也会影响图像质量,进一步增加了分类难度。

核心思路:论文的核心思路是利用自监督学习,从大量未标记的超声图像中学习通用的超声图像特征表示。通过预训练一个超声基础模型,使其能够捕捉超声图像的内在结构和模式,从而提高模型在下游分类任务中的泛化能力。这种方法可以有效缓解标注数据不足的问题,并提高模型对噪声和操作者差异的鲁棒性。

技术框架:整体框架包括两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用掩码自编码器(MAE)在大量未标记的超声图像上训练一个Vision Transformer(ViT)编码器。在微调阶段,将预训练的ViT编码器应用于妊娠早期胎儿心脏视图分类任务,并使用少量标记数据进行微调。

关键创新:最重要的技术创新点在于提出了USF-MAE,一个专门针对超声图像的自监督学习框架。与直接使用在自然图像上预训练的模型相比,USF-MAE能够更好地适应超声图像的特性,从而提高分类性能。此外,该方法不需要复杂的图像预处理或感兴趣区域裁剪,简化了流程,提高了效率。

关键设计:USF-MAE的关键设计包括:1) 使用掩码自编码器(MAE)作为预训练目标,通过重建被掩盖的图像区域来学习图像特征;2) 使用Vision Transformer(ViT)作为基础架构,利用其强大的特征提取能力;3) 在大量未标记的超声图像上进行预训练,以获得通用的超声图像表示;4) 使用相对较小的学习率进行微调,以避免过拟合。

📊 实验亮点

实验结果表明,USF-MAE在妊娠早期胎儿心脏视图分类任务中取得了显著的性能提升。在独立测试集上,USF-MAE的准确率达到90.57%,F1分数为90.71%,相比最强的基线ResNet-18,准确率提高了+2.03%,F1分数提高了+1.98%。这表明USF-MAE能够有效提高妊娠早期胎儿心脏视图的自动分类精度。

🎯 应用场景

该研究成果可应用于辅助医生进行妊娠早期胎儿心脏疾病的筛查和诊断,提高诊断效率和准确性,降低漏诊率。此外,该方法也可推广到其他医学超声图像的自动分析任务中,例如腹部超声、乳腺超声等,具有广泛的应用前景。

📄 摘要(原文)

Congenital heart disease remains the most common congenital anomaly and a leading cause of neonatal morbidity and mortality. Although first-trimester fetal echocardiography offers an opportunity for earlier detection, automated analysis at this stage is challenging due to small cardiac structures, low signal-to-noise ratio, and substantial inter-operator variability. In this work, we evaluate a self-supervised ultrasound foundation model, USF-MAE, for first-trimester fetal heart view classification. USF-MAE is pretrained using masked autoencoding modelling on more than 370,000 unlabelled ultrasound images spanning over 40 anatomical regions and is subsequently fine-tuned for downstream classification. As a proof of concept, the pretrained Vision Transformer encoder was fine-tuned on an open-source dataset of 6,720 first-trimester fetal echocardiography images to classify five categories: aorta, atrioventricular flows, V sign, X sign, and Other. Model performance was benchmarked against supervised convolutional neural network baselines (ResNet-18 and ResNet-50) and a Vision Transformer (ViT-B/16) model pretrained on natural images (ImageNet-1k). All models were trained and evaluated using identical preprocessing, data splits, and optimization protocols. On an independent test set, USF-MAE achieved the highest performance across all evaluation metrics, with 90.57% accuracy, 91.15% precision, 90.57% recall, and 90.71% F1-score. This represents an improvement of +2.03% in accuracy and +1.98% in F1-score compared with the strongest baseline, ResNet-18. The proposed approach demonstrated robust performance without reliance on aggressive image preprocessing or region-of-interest cropping and showed improved discrimination of non-diagnostic frames.