Vision4PPG: Emergent PPG Analysis Capability of Vision Foundation Models for Vital Signs like Blood Pressure
作者: Saurabh Kataria, Ayca Ermis, Lovely Yeswanth Panchumarthi, Minxiao Wang, Xiao Hu
分类: cs.CV, cs.LG
发布日期: 2025-10-11
备注: BHI abstract extended
💡 一句话要点
Vision4PPG:利用视觉基础模型进行PPG分析,实现血压等生命体征的预测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 光电容积脉搏波 视觉基础模型 生命体征估计 短时傅里叶变换 参数高效微调 血压预测 生理信号分析
📋 核心要点
- 现有方法依赖于专门的时间序列模型进行PPG分析,但这些模型可能缺乏视觉模型在特征提取方面的优势。
- Vision4PPG将一维PPG信号转换为二维图像表示,利用预训练的视觉基础模型进行特征提取和生命体征预测。
- 实验表明,Vision4PPG在血压估计等任务上取得了最先进的性能,并具有良好的泛化能力。
📝 摘要(中文)
可穿戴和临床设备中的光电容积脉搏波(PPG)传感器以非侵入和实时的方式提供有价值的生理信息。通常使用专门的或经过调整的时间序列基础模型(FM)来评估生理任务。本文通过微调FM的实验表明,视觉基础模型(VFM)也可用于此目的,并且在许多任务上,特别是血压估计方面,出人意料地实现了最先进(SOTA)的性能。本文通过简单地将一维PPG信号转换为类似图像的二维表示(例如短时傅里叶变换(STFT))来利用VFM。使用最新的VFM,如DINOv3和SIGLIP-2,在其他生命体征和血液实验室测量任务上也取得了有希望的性能。Vision4PPG解锁了一类新的FM,通过显著推广到其他2D输入表示(包括STFT相位和复发图)来实现SOTA性能。通过进行全面的研究,将视觉模型与最先进的时间序列FM进行比较,并通过报告六个额外任务的结果来证明其通用的PPG处理能力,本文改进了先前对PPG视觉模型的研究。因此,本文为临床科学家提供了一套新的强大工具,并且由于参数高效微调(PEFT)技术,该工具在计算上也是高效的。
🔬 方法详解
问题定义:论文旨在利用视觉基础模型(VFM)解决光电容积脉搏波(PPG)信号的分析问题,特别是生命体征(如血压)的估计。现有方法主要依赖于专门的时间序列基础模型或经过调整的时间序列模型,这些模型可能无法充分利用视觉模型在特征提取方面的优势,并且可能需要大量的特定领域知识进行设计和训练。
核心思路:论文的核心思路是将一维PPG信号转换为二维图像表示,例如短时傅里叶变换(STFT),然后利用预训练的视觉基础模型(如DINOv3和SIGLIP-2)进行特征提取和生命体征预测。这种方法利用了视觉模型强大的特征学习能力,避免了从头开始训练模型的需要,并且可以利用视觉领域的大量预训练数据。
技术框架:Vision4PPG的整体框架包括以下几个主要阶段:1) PPG信号预处理:对原始PPG信号进行必要的滤波和归一化处理。2) 信号转换:将一维PPG信号转换为二维图像表示,例如STFT幅度谱、STFT相位谱或复发图。3) 特征提取:使用预训练的视觉基础模型(如DINOv3或SIGLIP-2)提取图像表示的特征。4) 预测:将提取的特征输入到回归模型或分类模型中,预测生命体征(如血压)。
关键创新:该论文的关键创新在于:1) 首次探索了利用视觉基础模型进行PPG信号分析的可能性,并取得了最先进的性能。2) 提出了一种通用的框架,可以将一维PPG信号转换为多种二维图像表示,并利用不同的视觉基础模型进行特征提取。3) 通过参数高效微调(PEFT)技术,降低了计算成本,使得该方法更易于部署。与现有方法的本质区别在于,该方法利用了视觉模型的强大特征学习能力,避免了从头开始训练模型的需要。
关键设计:论文的关键设计包括:1) 选择了短时傅里叶变换(STFT)作为主要的信号转换方法,因为STFT可以提供信号的时频信息,有助于提取与生命体征相关的特征。2) 使用了DINOv3和SIGLIP-2等最新的视觉基础模型,这些模型在图像分类和目标检测等任务上表现出色,具有强大的特征学习能力。3) 采用了参数高效微调(PEFT)技术,例如LoRA,只微调少量参数,从而降低了计算成本,并避免了过拟合。
📊 实验亮点
实验结果表明,Vision4PPG在血压估计任务上取得了最先进的性能,超过了现有的时间序列模型。例如,在使用DINOv3模型和STFT幅度谱作为输入时,Vision4PPG在血压估计的平均绝对误差(MAE)方面取得了显著的提升。此外,该方法在其他生命体征和血液实验室测量任务上也取得了有希望的性能,证明了其通用性。
🎯 应用场景
Vision4PPG具有广泛的应用前景,可用于可穿戴设备、远程医疗、临床监护等领域。该研究可以帮助实现对生命体征的非侵入式、实时监测,为疾病的早期诊断和预防提供支持。未来,该方法可以进一步扩展到其他生理信号的分析,例如心电图(ECG)和脑电图(EEG),从而构建一个全面的生理信号分析平台。
📄 摘要(原文)
Photoplethysmography (PPG) sensor in wearable and clinical devices provides valuable physiological insights in a non-invasive and real-time fashion. Specialized Foundation Models (FM) or repurposed time-series FMs are used to benchmark physiological tasks. Our experiments with fine-tuning FMs reveal that Vision FM (VFM) can also be utilized for this purpose and, in fact, surprisingly leads to state-of-the-art (SOTA) performance on many tasks, notably blood pressure estimation. We leverage VFMs by simply transforming one-dimensional PPG signals into image-like two-dimensional representations, such as the Short-Time Fourier transform (STFT). Using the latest VFMs, such as DINOv3 and SIGLIP-2, we achieve promising performance on other vital signs and blood lab measurement tasks as well. Our proposal, Vision4PPG, unlocks a new class of FMs to achieve SOTA performance with notable generalization to other 2D input representations, including STFT phase and recurrence plots. Our work improves upon prior investigations of vision models for PPG by conducting a comprehensive study, comparing them to state-of-the-art time-series FMs, and demonstrating the general PPG processing ability by reporting results on six additional tasks. Thus, we provide clinician-scientists with a new set of powerful tools that is also computationally efficient, thanks to Parameter-Efficient Fine-Tuning (PEFT) techniques.