Generalizable deep learning for photoplethysmography-based blood pressure estimation -- A Benchmarking Study
作者: Mohammad Moulaeifard, Peter H. Charlton, Nils Strodthoff
分类: cs.LG, eess.SP
发布日期: 2025-02-26
备注: 20 pages, 5 figures, code available at https://github.com/AI4HealthUOL/ppg-ood-generalization
期刊: Machine Learning: Health 1(1):010501, 2025
💡 一句话要点
基于PPG的血压估计深度学习模型泛化性研究:基准测试与领域自适应
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 光电容积脉搏波 血压估计 深度学习 泛化性 领域自适应
📋 核心要点
- 现有基于PPG的血压估计深度学习模型,主要在同分布数据上测试,缺乏对异分布数据的泛化性评估。
- 本研究通过在多个数据集上进行基准测试,评估现有模型的泛化能力,并探索简单的领域自适应方法。
- 实验结果表明,血压分布差异显著影响模型性能,通过领域自适应可以提升泛化能力,并提出了训练泛化性模型的建议。
📝 摘要(中文)
本研究旨在评估基于光电容积脉搏波(PPG)的血压(BP)估计深度学习模型的泛化能力。近年来,大量深度学习模型被提出用于从原始PPG波形推断BP。然而,这些模型主要在同分布测试集上进行评估,引发了模型在外部数据集上的泛化性问题。为了研究这个问题,我们在PulseDB数据集上训练了五个深度学习模型,提供了同分布基准测试结果,并评估了在多个外部数据集上的异分布性能。最佳模型(XResNet1d101)在PulseDB上(使用特定于受试者的校准)的收缩压和舒张压的平均绝对误差(MAE)分别为9.4和6.0 mmHg,未校准时分别为14.0和8.5 mmHg。在外部测试数据集上,未校准时的等效MAE范围为15.0至25.1 mmHg(SBP)和7.0至10.4 mmHg(DBP)。结果表明,性能受到数据集之间BP分布差异的强烈影响。我们研究了一种通过基于样本的领域自适应来提高性能的简单方法,并提出了训练具有良好泛化性能的模型的建议。希望这项工作能够让更多研究人员了解异分布泛化的重要性和挑战。
🔬 方法详解
问题定义:论文旨在解决基于PPG信号的血压估计模型的泛化性问题。现有方法通常在特定数据集上训练和测试,缺乏对不同人群、不同设备采集的数据的泛化能力。这种局限性阻碍了PPG血压估计技术在实际临床环境中的应用。
核心思路:论文的核心思路是通过在多个公开数据集上进行基准测试,系统地评估现有深度学习模型在异分布数据上的性能。同时,探索一种简单的基于样本的领域自适应方法,以提高模型的泛化能力。通过分析实验结果,为训练具有良好泛化性能的PPG血压估计模型提供指导。
技术框架:论文的技术框架主要包括以下几个部分:1) 选择五个具有代表性的深度学习模型;2) 在PulseDB数据集上进行训练和同分布测试;3) 在多个外部数据集上进行异分布测试;4) 评估模型在不同数据集上的性能,并分析影响泛化性的因素;5) 探索基于样本的领域自适应方法,以提高模型的泛化能力。
关键创新:论文的关键创新在于对现有PPG血压估计模型的泛化性进行了系统的评估和分析。以往的研究主要关注模型在特定数据集上的性能,而忽略了模型在实际应用中可能遇到的异分布问题。本研究通过在多个数据集上进行基准测试,揭示了现有模型泛化能力的不足,并为未来的研究提供了重要的参考。
关键设计:论文的关键设计包括:1) 选择XResNet1d101等具有代表性的深度学习模型;2) 使用平均绝对误差(MAE)作为评估指标;3) 探索基于样本的领域自适应方法,例如调整训练样本的权重,以适应目标数据集的分布;4) 分析不同数据集的血压分布差异,并将其与模型性能联系起来。
🖼️ 关键图片
📊 实验亮点
实验结果表明,最佳模型XResNet1d101在PulseDB数据集上,经过受试者特定校准后,收缩压和舒张压的MAE分别为9.4和6.0 mmHg。在未校准的情况下,外部数据集上的MAE范围为收缩压15.0-25.1 mmHg,舒张压7.0-10.4 mmHg。通过简单的领域自适应,模型在外部数据集上的性能得到显著提升。
🎯 应用场景
该研究成果可应用于开发更可靠、更通用的无袖带血压监测设备。通过提高模型的泛化能力,可以减少对特定人群或设备的依赖,使血压监测技术更广泛地应用于远程医疗、家庭健康监测和可穿戴设备等领域,从而改善患者的健康管理和生活质量。
📄 摘要(原文)
Photoplethysmography (PPG)-based blood pressure (BP) estimation represents a promising alternative to cuff-based BP measurements. Recently, an increasing number of deep learning models have been proposed to infer BP from the raw PPG waveform. However, these models have been predominantly evaluated on in-distribution test sets, which immediately raises the question of the generalizability of these models to external datasets. To investigate this question, we trained five deep learning models on the recently released PulseDB dataset, provided in-distribution benchmarking results on this dataset, and then assessed out-of-distribution performance on several external datasets. The best model (XResNet1d101) achieved in-distribution MAEs of 9.4 and 6.0 mmHg for systolic and diastolic BP respectively on PulseDB (with subject-specific calibration), and 14.0 and 8.5 mmHg respectively without calibration. Equivalent MAEs on external test datasets without calibration ranged from 15.0 to 25.1 mmHg (SBP) and 7.0 to 10.4 mmHg (DBP). Our results indicate that the performance is strongly influenced by the differences in BP distributions between datasets. We investigated a simple way of improving performance through sample-based domain adaptation and put forward recommendations for training models with good generalization properties. With this work, we hope to educate more researchers for the importance and challenges of out-of-distribution generalization.