Unified Review and Benchmark of Deep Segmentation Architectures for Cardiac Ultrasound on CAMUS
作者: Zahid Ullah, Muhammad Hilal, Eunsoo Lee, Dragan Pamucar, Jihie Kim
分类: cs.CV
发布日期: 2025-12-27
💡 一句话要点
针对心脏超声图像分割,统一评估和基准测试深度学习架构
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心脏超声图像分割 深度学习 U-Net TransUNet 自监督学习 伪标签 基准测试
📋 核心要点
- 现有心脏超声图像分割研究缺乏统一的基准测试和可复现的实验比较,难以评估不同方法的优劣。
- 本文通过在CAMUS数据集上,对U-Net、Attention U-Net和TransUNet三种架构进行统一的基准测试,提供公平的性能比较。
- 实验结果表明,普通U-Net在NIfTI数据上表现出色,TransUNet在具有挑战性的帧上泛化能力更强,伪标签可以提高模型鲁棒性。
📝 摘要(中文)
本文对心脏超声成像和深度学习的进展进行了综述,并将其与统一且可复现的实验基准联系起来。研究结合了对心脏超声分割文献的重点回顾,以及在CAMUS数据集上对U-Net、Attention U-Net和TransUNet三种架构的受控比较。基准测试涵盖了多种预处理方法,包括原生NIfTI卷、16位PNG导出、GPT辅助的多边形伪标签以及在数千个未标记电影帧上的自监督预训练(SSL)。在相同的训练分割、损失和评估标准下,直接在NIfTI数据上训练的普通U-Net达到了94%的平均Dice系数,而PNG-16位工作流程在类似条件下达到了91%。Attention U-Net在小区域或低对比度区域提供了适度的改进,减少了边界泄漏,而TransUNet由于其建模全局空间上下文的能力,在具有挑战性的帧上表现出最强的泛化能力,尤其是在使用SSL初始化时。伪标签扩展了训练集,并在置信度过滤后提高了鲁棒性。总体而言,本文的贡献有三方面:在标准化的CAMUS预处理和评估下,对U-Net、Attention U-Net和TransUNet进行了统一的基准测试;提供了在准备超声数据时保持强度保真度、分辨率一致性和对齐的实用指导;以及对可扩展的自监督和新兴的基于多模态GPT的注释管道的展望,用于快速标记、质量保证和有针对性的数据集管理。
🔬 方法详解
问题定义:心脏超声图像分割旨在准确识别左心室、右心室和左心房等结构,为心脏疾病的诊断和治疗提供重要信息。现有方法缺乏统一的评估标准,且对数据预处理方式的敏感性较高,难以进行公平比较。此外,标注数据的获取成本高昂,限制了模型的训练规模和泛化能力。
核心思路:本文的核心思路是建立一个统一的基准测试平台,对不同的深度学习分割架构在相同的数据集、预处理流程和评估指标下进行比较。同时,探索自监督学习和伪标签技术,以利用未标注数据,提高模型的性能和鲁棒性。
技术框架:本文的整体框架包括数据预处理、模型训练和性能评估三个主要阶段。数据预处理包括NIfTI格式转换、16位PNG导出等多种方式。模型训练阶段使用U-Net、Attention U-Net和TransUNet三种架构,并采用相同的训练集划分、损失函数和优化器。性能评估采用Dice系数等指标,对分割结果进行定量分析。
关键创新:本文的关键创新在于构建了一个统一且可复现的基准测试平台,为心脏超声图像分割领域的研究提供了公平的比较基础。此外,探索了自监督预训练和GPT辅助的伪标签生成方法,以降低标注成本,提高模型的性能和泛化能力。TransUNet在心脏超声分割上的应用也是一个创新点,它利用Transformer的全局建模能力,提升了分割精度。
关键设计:在数据预处理方面,研究比较了NIfTI和PNG两种格式对模型性能的影响。在模型训练方面,采用了交叉熵损失和Dice损失的组合,以平衡分割精度和区域重叠度。TransUNet使用了Transformer编码器来提取全局特征,并将其与U-Net的解码器相结合。自监督预训练使用了对比学习方法,以学习图像的表示。伪标签生成使用了GPT模型,根据少量标注数据生成多边形伪标签。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在CAMUS数据集上,直接在NIfTI数据上训练的普通U-Net达到了94%的平均Dice系数,优于PNG-16位工作流程的91%。Attention U-Net在小区域或低对比度区域有所改进,TransUNet在具有挑战性的帧上表现出更强的泛化能力,尤其是在使用SSL初始化时。伪标签扩展训练集后,模型鲁棒性得到提升。
🎯 应用场景
该研究成果可应用于心脏疾病的辅助诊断、手术规划和介入治疗等领域。标准化的基准测试和预处理流程有助于研究人员快速评估和比较新的分割算法。自监督学习和伪标签技术可以降低标注成本,加速模型的部署和应用。未来,该方法可以扩展到其他医学影像领域,如CT和MRI。
📄 摘要(原文)
Several review papers summarize cardiac imaging and DL advances, few works connect this overview to a unified and reproducible experimental benchmark. In this study, we combine a focused review of cardiac ultrasound segmentation literature with a controlled comparison of three influential architectures, U-Net, Attention U-Net, and TransUNet, on the Cardiac Acquisitions for Multi-Structure Ultrasound Segmentation (CAMUS) echocardiography dataset. Our benchmark spans multiple preprocessing routes, including native NIfTI volumes, 16-bit PNG exports, GPT-assisted polygon-based pseudo-labels, and self-supervised pretraining (SSL) on thousands of unlabeled cine frames. Using identical training splits, losses, and evaluation criteria, a plain U-Net achieved a 94% mean Dice when trained directly on NIfTI data (preserving native dynamic range), while the PNG-16-bit workflow reached 91% under similar conditions. Attention U-Net provided modest improvements on small or low-contrast regions, reducing boundary leakage, whereas TransUNet demonstrated the strongest generalization on challenging frames due to its ability to model global spatial context, particularly when initialized with SSL. Pseudo-labeling expanded the training set and improved robustness after confidence filtering. Overall, our contributions are threefold: a harmonized, apples-to-apples benchmark of U-Net, Attention U-Net, and TransUNet under standardized CAMUS preprocessing and evaluation; practical guidance on maintaining intensity fidelity, resolution consistency, and alignment when preparing ultrasound data; and an outlook on scalable self-supervision and emerging multimodal GPT-based annotation pipelines for rapid labeling, quality assurance, and targeted dataset curation.