An Electrocardiogram Foundation Model Built on over 10 Million Recordings with External Evaluation across Multiple Domains

📄 arXiv: 2410.04133v4 📥 PDF

作者: Jun Li, Aaron Aguirre, Junior Moura, Che Liu, Lanhai Zhong, Chenxi Sun, Gari Clifford, Brandon Westover, Shenda Hong

分类: cs.LG, cs.AI, eess.SP

发布日期: 2024-10-05 (更新: 2025-08-04)

备注: Code: https://github.com/PKUDigitalHealth/ECGFounder

🔗 代码/项目: GITHUB


💡 一句话要点

提出ECGFounder心电图基础模型,基于千万级数据训练,提升多领域心电分析性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心电图分析 基础模型 深度学习 心血管疾病 迁移学习

📋 核心要点

  1. 现有心电分析AI模型面临数据量不足、领域泛化性差以及单/多导联性能差异等挑战。
  2. ECGFounder利用千万级心电数据训练,包含150个诊断标签,旨在提升心电分析的诊断能力和泛化性。
  3. 实验表明,ECGFounder在内部验证集上达到专家水平,AUROC超过0.95,微调后在多项任务中优于基线。

📝 摘要(中文)

本文介绍了一种心电图基础模型(ECGFounder),旨在提升AI在心电分析和心血管疾病评估中的能力。构建ECG基础模型面临数据库样本不足和跨领域泛化性差等挑战,且单导联与多导联心电分析之间存在性能差距。ECGFounder利用来自Harvard-Emory ECG数据库的超过1000万份心电图记录进行训练,包含150个标签类别,从而实现全面的心血管疾病诊断。该模型既可作为即用型解决方案,也可针对下游任务进行微调,从而最大化可用性。此外,ECGFounder还可应用于低秩心电图,特别是任意单导联心电图,支持移动监测场景中的各种下游任务。实验结果表明,ECGFounder在内部验证集上达到了专家级性能,80项诊断的AUROC超过0.95,并在外部验证集上表现出强大的分类性能和泛化能力。经过微调后,ECGFounder在人口统计分析、临床事件检测和跨模态心律失常诊断方面优于基线模型。训练好的模型和数据将在发表后通过bdsp.io公开。

🔬 方法详解

问题定义:现有心电分析AI模型受限于训练数据规模和质量,难以实现对各类心血管疾病的全面诊断,且在不同领域和场景下的泛化能力不足。此外,单导联心电图分析的性能通常低于多导联,限制了其在移动健康监测等场景的应用。

核心思路:本文的核心思路是构建一个大规模的心电图基础模型,通过海量数据进行预训练,学习通用的心电特征表示,从而提升模型在各种下游任务中的性能和泛化能力。该模型旨在弥合单导联和多导联心电分析之间的差距,并支持移动健康监测等新兴应用场景。

技术框架:ECGFounder的整体框架包括数据预处理、模型训练和下游任务微调三个主要阶段。首先,对来自Harvard-Emory ECG数据库的超过1000万份心电图记录进行预处理,包括数据清洗、标准化和分割等。然后,利用预处理后的数据训练ECGFounder模型,该模型采用Transformer架构,学习心电图的通用特征表示。最后,针对不同的下游任务,如心律失常分类、临床事件检测等,对预训练的ECGFounder模型进行微调。

关键创新:ECGFounder最重要的技术创新点在于其大规模的训练数据和通用的模型架构。通过利用超过1000万份心电图记录进行训练,ECGFounder能够学习到更加丰富和鲁棒的心电特征表示,从而提升模型在各种下游任务中的性能。此外,ECGFounder采用Transformer架构,具有强大的序列建模能力,能够有效地捕捉心电图中的时序信息。与现有方法相比,ECGFounder在数据规模和模型架构上都具有显著优势。

关键设计:ECGFounder的关键设计包括以下几个方面:1) 数据增强:为了提高模型的鲁棒性,采用了多种数据增强技术,如时间扭曲、幅度缩放等。2) 损失函数:采用了交叉熵损失函数,用于训练模型进行心律失常分类。3) 模型架构:采用了Transformer架构,包括多个自注意力层和前馈神经网络层。4) 优化器:采用了AdamW优化器,用于训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ECGFounder在内部验证集上实现了专家级性能,80项诊断的AUROC超过0.95。在外部验证集上,ECGFounder也表现出强大的分类性能和泛化能力。经过微调后,ECGFounder在人口统计分析、临床事件检测和跨模态心律失常诊断方面均优于基线模型,证明了其有效性和泛用性。

🎯 应用场景

ECGFounder具有广泛的应用前景,可用于心血管疾病的早期诊断、风险评估和远程监测。该模型可以集成到移动健康设备中,实现对用户心电数据的实时监测和分析,及时发现潜在的心血管问题。此外,ECGFounder还可以应用于临床研究,加速新药研发和治疗方案的优化。该研究有望推动心血管疾病的精准医疗发展。

📄 摘要(原文)

Artificial intelligence (AI) has demonstrated significant potential in ECG analysis and cardiovascular disease assessment. Recently, foundation models have played a remarkable role in advancing medical AI. The development of an ECG foundation model holds the promise of elevating AI-ECG research to new heights. However, building such a model faces several challenges, including insufficient database sample sizes and inadequate generalization across multiple domains. Additionally, there is a notable performance gap between single-lead and multi-lead ECG analyses. We introduced an ECG Foundation Model (ECGFounder), a general-purpose model that leverages real-world ECG annotations from cardiology experts to broaden the diagnostic capabilities of ECG analysis. ECGFounder was trained on over 10 million ECGs with 150 label categories from the Harvard-Emory ECG Database, enabling comprehensive cardiovascular disease diagnosis through ECG analysis. The model is designed to be both an effective out-of-the-box solution, and a to be fine-tunable for downstream tasks, maximizing usability. Importantly, we extended its application to lower rank ECGs, and arbitrary single-lead ECGs in particular. ECGFounder is applicable to supporting various downstream tasks in mobile monitoring scenarios. Experimental results demonstrate that ECGFounder achieves expert-level performance on internal validation sets, with AUROC exceeding 0.95 for eighty diagnoses. It also shows strong classification performance and generalization across various diagnoses on external validation sets. When fine-tuned, ECGFounder outperforms baseline models in demographic analysis, clinical event detection, and cross-modality cardiac rhythm diagnosis. The trained model and data will be publicly released upon publication through the bdsp.io. Our code is available at https://github.com/PKUDigitalHealth/ECGFounder