Pretraining Strategies and Scaling for ECG Foundation Models: A Systematic Study

📄 arXiv: 2605.12241v1 📥 PDF

作者: M A Al-Masud, Nils Strodthoff

分类: eess.SP, cs.AI, cs.LG

发布日期: 2026-05-12

备注: 59 pages, 16 figures, 59 Tables. Code available at https://anonymous.4open.science/r/ecg-pretraining-strategies-4DE3


💡 一句话要点

心电图(ECG)基础模型:预训练策略、规模化与模型架构的系统性研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心电图 基础模型 预训练 自监督学习 对比学习 状态空间模型 生理信号处理 迁移学习

📋 核心要点

  1. 现有医学子领域的基础模型缺乏对预训练方法和数据集规模的系统性评估。
  2. 本文对比研究了五种自监督学习目标,并探索了预训练数据规模对ECG基础模型性能的影响。
  3. 实验表明,对比预测编码(CPC)和结构化状态空间模型在ECG表征学习中表现优异,归纳偏置是关键。

📝 摘要(中文)

本文针对心电图(ECG)数据的基础模型,系统性地评估了不同的预训练方法和参数规模对模型性能的影响。研究涵盖了五种对比学习和非对比学习的自监督学习目标,并考察了预训练数据集规模扩展到1100万个输入样本时的模型表现,所有数据均来自公开资源。结果表明,预训练策略对下游任务的性能有显著影响,其中对比预测编码(CPC)略优于JEPA,能产生更具迁移性的表征。在大多数目标下,扩展预训练数据到1100万样本能持续提升性能。此外,研究还比较了不同预训练方法下的模型架构,发现结构化状态空间模型明显优于Transformer和CNN模型。研究推测,结构化状态空间模型强大的归纳偏置,而非单纯的预训练规模,是有效ECG表征学习的主要驱动因素,这对未来生理信号领域的基础模型开发具有重要意义。

🔬 方法详解

问题定义:现有医学领域的基础模型研究,特别是心电图(ECG)领域,缺乏对预训练策略和模型规模的系统性评估。不同预训练方法的效果,以及随着预训练数据规模的增加,模型性能的提升情况,都需要更深入的研究。现有方法难以确定哪种预训练策略和模型架构最适合ECG数据,以及如何有效地利用大规模公开数据。

核心思路:本文的核心思路是通过系统性的实验,比较不同的自监督学习预训练策略和模型架构在ECG数据上的表现。通过控制变量,评估预训练策略、数据规模和模型架构对下游任务性能的影响。重点关注对比学习和非对比学习方法,以及不同类型的神经网络模型,旨在找到最适合ECG数据的基础模型。

技术框架:本文的整体框架包括以下几个主要阶段:1) 数据准备:收集并预处理公开的ECG数据集,构建不同规模的预训练数据集。2) 模型选择:选择包括Transformer、CNN和结构化状态空间模型在内的多种模型架构。3) 预训练:使用五种不同的自监督学习目标(包括对比学习和非对比学习方法)对模型进行预训练。4) 下游任务评估:将预训练好的模型迁移到不同的临床任务上进行评估,例如心律失常分类。5) 结果分析:比较不同预训练策略、数据规模和模型架构下的性能,分析影响模型性能的关键因素。

关键创新:本文最重要的技术创新点在于对ECG基础模型的预训练策略和模型架构进行了全面的系统性评估。通过大规模的实验,揭示了对比预测编码(CPC)和结构化状态空间模型在ECG表征学习中的优势。此外,研究还强调了模型架构的归纳偏置在生理信号处理中的重要性,这与以往主要关注预训练规模的研究有所不同。

关键设计:在预训练阶段,使用了五种自监督学习目标,包括对比学习方法(如CPC)和非对比学习方法(如JEPA)。对于模型架构,选择了Transformer、CNN和结构化状态空间模型。在下游任务评估中,使用了标准的心律失常分类数据集,并采用常用的评价指标(如准确率、F1-score)来评估模型性能。为了保证实验的公平性,对所有模型都进行了相同的超参数调整和训练流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,对比预测编码(CPC)在多种预训练策略中表现最佳,能够产生更具迁移性的ECG表征。结构化状态空间模型在所有预训练方法下均优于Transformer和CNN模型,验证了其在ECG数据处理中的优势。此外,研究发现,将预训练数据规模扩展到1100万样本能够持续提升模型性能,但模型架构的归纳偏置比单纯的预训练规模更重要。

🎯 应用场景

该研究成果可应用于心电图自动分析、心律失常检测、心脏疾病诊断等领域。通过构建高性能的ECG基础模型,可以提高诊断的准确性和效率,降低医疗成本,并为远程医疗和可穿戴设备提供技术支持。未来,该研究思路可以推广到其他生理信号领域,例如脑电图(EEG)和肌电图(EMG),促进医学人工智能的发展。

📄 摘要(原文)

Specialized foundation models are beginning to emerge in various medical subdomains, but pretraining methodologies and parametric scaling with the size of the pretraining dataset are rarely assessed systematically and in a like-for-like manner. This work focuses on foundation models for electrocardiography (ECG) data, one of the most widely captured physiological time series world-wide. We present a comprehensive assessment of pretraining methodologies, covering five different contrastive and non-contrastive self-supervised learning objectives for ECG foundation models, and investigate their scaling behavior with pretraining dataset sizes up to 11M input samples, exclusively from publicly available sources. Pretraining strategy has a meaningful and consistent impact on downstream performance, with contrastive predictive coding (slightly ahead of JEPA) yielding the most transferable representations across diverse clinical tasks. Scaling pretraining data continues to yield meaningful improvements up to 11M samples for most objectives. We also compare model architectures across all pretraining methodologies and find evidence for a clear superiority of structured state space models compared to transformers and CNN models. We hypothesize that the strong inductive biases of structured state space models, rather than pretraining scale alone, are the primary driver of effective ECG representation learning, with important implications for future foundation model development in this and potentially other physiological signal domains.