Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

📄 arXiv: 2505.20745v2 📥 PDF

作者: Jingping Nie, Dung T. Tran, Karan Thakkar, Vasudha Kowtha, Jon Huang, Carlos Avendano, Erdrin Azemi, Vikramjit Mitra

分类: cs.SD, cs.LG, eess.AS

发布日期: 2025-05-27 (更新: 2025-05-29)

备注: 5 pages, Interspeech 2025 conference


💡 一句话要点

利用预训练声学基础模型表征进行听诊心率估计,性能媲美甚至超越传统方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心率估计 听诊 预训练模型 声学表征 心音图

📋 核心要点

  1. 现有方法在心率估计中依赖人工设计的声学特征,缺乏对预训练声学模型表征能力的深入探索。
  2. 该研究探索了多种预训练声学基础模型在心率估计任务中的表现,并分析了不同模型层级的表征能力。
  3. 实验结果表明,预训练模型表征的心率估计性能可与传统方法媲美,甚至在特定模型上超越传统方法。

📝 摘要(中文)

听诊,特别是心音听诊,是一种提供重要生命体征信息的非侵入性技术。最近,自监督声学表征基础模型(FMs)被提出,以提供对基于声学的生命体征的深入了解。然而,对于听诊信息在这些预训练FM表征中编码的程度,目前的研究还很少。本文使用公开的心音图(PCG)数据集和心率(HR)估计模型,对六种声学表征FM(HuBERT、wav2vec2、wavLM、Whisper、Contrastive Language-Audio Pretraining (CLAP)以及一个内部CLAP模型)进行了逐层研究。此外,我们实现了Nie et al., 2024中的基线方法(依赖于声学特征),并表明总体而言,来自预训练基础模型(FMs)的表征向量提供了与基线相当的性能。值得注意的是,使用内部CLAP模型的音频编码器的表征进行HR估计,优于从基线获得的结果,尽管存在领域不匹配,但在各种训练/验证/测试分割中实现了更低的平均绝对误差(MAE)。

🔬 方法详解

问题定义:论文旨在解决心率估计问题,特别关注如何利用预训练声学基础模型(FMs)的表征来提高心率估计的准确性。现有方法通常依赖于人工设计的声学特征,这些特征可能无法充分捕捉心音中的复杂信息。此外,对于预训练声学模型在心率估计任务中的适用性和有效性,缺乏系统的研究。

核心思路:论文的核心思路是利用预训练声学基础模型学习到的通用声学表征,将其迁移到心率估计任务中。通过分析不同模型层级的表征向量,探索哪些层级的表征最适合心率估计。这种方法避免了人工特征工程的复杂性,并有望利用预训练模型强大的表征能力。

技术框架:整体框架包括以下几个步骤:1) 选择多个预训练声学基础模型,包括HuBERT、wav2vec2、wavLM、Whisper、CLAP以及一个内部CLAP模型;2) 使用公开的心音图(PCG)数据集;3) 提取每个模型不同层级的表征向量;4) 使用这些表征向量训练心率估计模型;5) 评估心率估计模型的性能,并与基于人工特征的基线方法进行比较。

关键创新:该研究的关键创新在于系统性地评估了多种预训练声学基础模型在心率估计任务中的表现,并分析了不同模型层级的表征能力。与以往研究主要依赖人工特征工程不同,该研究充分利用了预训练模型学习到的通用声学表征,实现了端到端的心率估计。此外,该研究还发现,特定预训练模型(内部CLAP模型)的表征在心率估计任务中表现优异,超越了传统的基线方法。

关键设计:研究中使用了公开的心音图(PCG)数据集,并采用了标准的训练/验证/测试集划分。心率估计模型采用回归模型,损失函数为平均绝对误差(MAE)。对每个预训练模型的不同层级进行了实验,以确定最佳的表征层级。内部CLAP模型可能使用了特定的训练数据或架构设计,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用预训练声学基础模型表征进行心率估计,可以达到与传统基线方法相当的性能。更重要的是,使用内部CLAP模型的音频编码器的表征进行HR估计,在各种训练/验证/测试分割中实现了更低的平均绝对误差(MAE),优于基线方法。这表明预训练声学模型具有强大的表征能力,可以有效应用于心率估计任务。

🎯 应用场景

该研究成果可应用于远程医疗、可穿戴设备和智能健康监测等领域。通过利用预训练声学模型,可以实现更准确、更便捷的心率估计,为心血管疾病的早期诊断和预防提供技术支持。未来,可以将该方法扩展到其他生理信号的分析,例如呼吸音分析等。

📄 摘要(原文)

Auscultation, particularly heart sound, is a non-invasive technique that provides essential vital sign information. Recently, self-supervised acoustic representation foundation models (FMs) have been proposed to offer insights into acoustics-based vital signs. However, there has been little exploration of the extent to which auscultation is encoded in these pre-trained FM representations. In this work, using a publicly available phonocardiogram (PCG) dataset and a heart rate (HR) estimation model, we conduct a layer-wise investigation of six acoustic representation FMs: HuBERT, wav2vec2, wavLM, Whisper, Contrastive Language-Audio Pretraining (CLAP), and an in-house CLAP model. Additionally, we implement the baseline method from Nie et al., 2024 (which relies on acoustic features) and show that overall, representation vectors from pre-trained foundation models (FMs) offer comparable performance to the baseline. Notably, HR estimation using the representations from the audio encoder of the in-house CLAP model outperforms the results obtained from the baseline, achieving a lower mean absolute error (MAE) across various train/validation/test splits despite the domain mismatch.