EVL-ECG: Efficient ECG Interpretation With Multi-Aspect Heterogeneous Knowledge Distillation

📄 arXiv: 2605.29977v1 📥 PDF

作者: Dang Hong Nguyen, Nhi Ngoc-Yen Nguyen, Huy-Hieu Pham

分类: cs.CV, cs.LG

发布日期: 2026-05-28

备注: Accepted at the SD4H Workshop at ICML 2026. 11 pages, 3 figures


💡 一句话要点

提出EVL-ECG,通过异构知识蒸馏实现高效的心电图(ECG)判读。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心电图判读 知识蒸馏 异构架构 边缘计算 多头注意力 最优传输 临床诊断

📋 核心要点

  1. 现有ECG判读模型计算需求高,难以在资源受限的边缘设备上部署。
  2. EVL-ECG通过知识蒸馏,将大型模型的知识迁移到小型模型,同时保留ECG信号的时空依赖性。
  3. 实验表明,EVL-ECG在AUC和临床准确率上均优于现有方法,并构建了一个高效的ECG基础模型。

📝 摘要(中文)

高精度心电图判读越来越依赖于大规模基础模型,但其在临床边缘环境中的部署受到巨大计算需求的限制。知识蒸馏(KD)是一种有前景的解决方案,但传统方法在跨异构架构传递知识时,无法捕捉ECG信号复杂的时空依赖性。本文提出了EVL-ECG,一个专门为心脏诊断逻辑的跨架构蒸馏而设计的框架。EVL-ECG引入了三个ECG感知的创新:(1)多头交叉注意力对齐,协调架构差异以保留细粒度的形态特征;(2)基于最优传输的可视特征匹配,利用最优传输来维持ECG导联的全局结构关系,即使token表示不匹配;(3)几何结构内关系匹配,提炼教师模型的潜在诊断推理。在ECG基准测试中的评估表明,EVL-ECG比现有基线提高了高达2.4%的AUC和1.1%的临床准确率。值得注意的是,EVL-ECG建立了一个高效的20亿参数ECG基础模型,适用于资源受限的临床环境。

🔬 方法详解

问题定义:现有的大型ECG判读模型虽然精度高,但计算量巨大,难以在资源受限的临床边缘设备上部署。传统的知识蒸馏方法在跨异构架构迁移知识时,无法有效捕捉ECG信号复杂的时空依赖性,导致学生模型的性能下降。

核心思路:EVL-ECG的核心思路是设计一种专门针对ECG信号的知识蒸馏框架,通过引入ECG感知的创新模块,弥合教师模型和学生模型之间的架构差异,从而更有效地将教师模型的诊断逻辑迁移到学生模型。

技术框架:EVL-ECG框架主要包含三个核心模块:(1)多头交叉注意力对齐模块,用于对齐教师模型和学生模型之间的特征表示;(2)基于最优传输的可视特征匹配模块,用于保持ECG导联的全局结构关系;(3)几何结构内关系匹配模块,用于提炼教师模型的潜在诊断推理。这三个模块协同工作,共同提升学生模型的性能。

关键创新:EVL-ECG的关键创新在于其ECG感知的知识蒸馏方法。具体来说,多头交叉注意力对齐模块、基于最优传输的可视特征匹配模块和几何结构内关系匹配模块都是针对ECG信号的特点而设计的,能够更有效地捕捉ECG信号的时空依赖性,从而提升学生模型的性能。与现有方法相比,EVL-ECG能够更好地处理异构架构之间的知识迁移问题。

关键设计:在多头交叉注意力对齐模块中,使用了多头注意力机制来对齐教师模型和学生模型的特征表示。在基于最优传输的可视特征匹配模块中,使用了Sinkhorn算法来计算最优传输矩阵。在几何结构内关系匹配模块中,使用了对比学习损失来提炼教师模型的潜在诊断推理。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EVL-ECG在ECG基准测试中取得了显著的性能提升,AUC提高了高达2.4%,临床准确率提高了1.1%。与现有基线方法相比,EVL-ECG能够更有效地利用知识蒸馏技术,构建一个高效的20亿参数ECG基础模型,适用于资源受限的临床环境。这些结果表明EVL-ECG在实际应用中具有很大的潜力。

🎯 应用场景

EVL-ECG可应用于各种资源受限的临床场景,例如远程医疗、移动健康监测和床旁诊断。通过将大型ECG模型的知识迁移到小型模型,EVL-ECG使得高精度ECG判读能够在这些场景中实现,从而提高诊断效率和患者护理水平。该研究为开发更高效、更易于部署的医疗AI系统提供了新的思路。

📄 摘要(原文)

High-fidelity ECG interpretation is increasingly reliant on massive foundation models, yet their deployment in clinical edge-care remains hindered by extreme computational demands. While knowledge distillation (KD) is a promising solution, traditional methods fail to capture the complex spatio-temporal dependencies of ECG signals when transferring knowledge across heterogeneous architectures. In this paper, we propose EVL-ECG, a framework specifically designed for cross-architecture distillation of cardiac diagnostic logic. EVL-ECG introduces three ECG-aware innovations: (1) Multi-Head Cross-Attention Alignment, which harmonizes architectural discrepancies to preserve fine-grained morphological features; (2) Optimal Transport-based Visual Feature Matching, utilizing optimal transport to maintain global structural relationships across ECG leads despite mismatched token representations; and (3) Geometric Intra-Architecture Relation Matching, which distills the latent diagnostic reasoning of the teacher model. Evaluations across ECG benchmarks demonstrate that EVL-ECG yields improvements of up to 2.4% AUC and 1.1% clinical accuracy over existing baselines. Notably, EVL-ECG establishes an efficient 2B-parameter ECG foundation model, suitable for resource-constrained clinical environments.