Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography
作者: Vineet R. Shenoy, Shaoju Wu, Armand Comas, Tim K. Marks, Suhas Lohit, Hassan Mansour
分类: cs.CV
发布日期: 2025-03-21
备注: 14 Pages, 8 figures
💡 一句话要点
提出TURNIP:一种基于时序U-Net和循环机制的噪声鲁棒性iPPG脉搏信号估计方法
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: iPPG 远程生命体征监测 时序U-Net 循环神经网络 噪声鲁棒性
📋 核心要点
- 现有iPPG方法通常依赖黑盒模型,缺乏可解释性,且在运动和遮挡等噪声环境下表现不佳。
- TURNIP采用模块化设计,利用时序U-Net和循环机制,能够重建脉搏信号波形,并显式处理自遮挡问题,提高鲁棒性。
- 实验表明,TURNIP在RGB和NIR数据集上均优于现有iPPG方法,无需专用传感器即可实现可靠的心率估计。
📝 摘要(中文)
本文提出了一种模块化、可解释的脉搏信号估计流程,用于从面部视频中进行生命体征的远程估计,并在公开数据集上取得了最先进的结果。该成像光电容积脉搏波(iPPG)系统包含三个模块:面部和关键点检测、时间序列提取以及脉搏信号/脉搏率估计。与许多直接从输入视频映射到输出信号或心率的黑盒深度学习方法不同,该模块化方法使得流程的每个部分都可以单独解释。脉搏信号估计模块TURNIP(Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography)能够忠实地重建潜在的脉搏信号波形,并使用它来测量心率和脉搏率变异性指标,即使在存在运动的情况下也是如此。当面部部分因头部姿势极端而遮挡时,该系统会明确检测到这种“自遮挡”区域,并在缺少信息的情况下保持估计的鲁棒性。该算法无需专用传感器或与皮肤接触即可提供可靠的心率估计,在颜色(RGB)和近红外(NIR)数据集上均优于先前的iPPG方法。
🔬 方法详解
问题定义:论文旨在解决在噪声环境下,例如运动伪影和面部遮挡,如何从面部视频中准确估计脉搏信号和心率的问题。现有iPPG方法通常采用端到端的黑盒模型,缺乏可解释性,并且对噪声非常敏感,难以在实际应用中推广。
核心思路:论文的核心思路是将iPPG流程分解为三个模块:面部检测与关键点定位、时间序列提取和脉搏信号估计。通过模块化设计,可以针对每个模块进行优化和解释。TURNIP模块利用时序U-Net提取时间序列特征,并结合循环机制来建模时间依赖性,从而提高对噪声的鲁棒性。同时,显式地检测和处理面部自遮挡区域,进一步提升了系统的可靠性。
技术框架:整个iPPG系统包含三个主要模块:1) 面部和关键点检测模块,用于定位面部区域和关键点;2) 时间序列提取模块,用于从面部区域提取RGB或NIR时间序列信号;3) 脉搏信号估计模块TURNIP,用于从时间序列信号中重建脉搏信号波形,并计算心率和脉搏率变异性指标。TURNIP模块是整个系统的核心。
关键创新:论文的关键创新在于TURNIP模块的设计,它结合了时序U-Net和循环机制,能够有效地提取时间序列特征,并对噪声具有很强的鲁棒性。此外,显式地检测和处理面部自遮挡区域也是一个重要的创新点,可以提高系统在复杂环境下的性能。与现有方法相比,TURNIP不仅提高了精度,还提供了更好的可解释性。
关键设计:TURNIP模块采用U-Net结构,用于提取时间序列特征。在U-Net的编码器部分,使用卷积层和池化层来逐步降低时间序列的维度,并提取高层特征。在解码器部分,使用反卷积层和跳跃连接来恢复时间序列的原始维度,并重建脉搏信号波形。为了建模时间依赖性,在U-Net的编码器和解码器之间添加了循环层,例如LSTM或GRU。损失函数通常包括重建损失和心率预测损失。
🖼️ 关键图片
📊 实验亮点
TURNIP在公开的RGB和NIR数据集上均取得了优于现有iPPG方法的结果。具体性能数据未知,但摘要强调了其在噪声环境下的鲁棒性,以及对自遮挡问题的有效处理。该方法无需专用传感器,即可实现可靠的心率估计,具有重要的实际应用价值。
🎯 应用场景
该研究成果可应用于远程健康监测、智能家居、车载健康系统等领域。无需接触皮肤即可进行心率监测,降低了使用门槛,提高了用户体验。在疫情期间,非接触式生命体征监测具有重要的应用价值。未来,该技术有望与可穿戴设备、智能手机等集成,实现随时随地的健康管理。
📄 摘要(原文)
Remote estimation of vital signs enables health monitoring for situations in which contact-based devices are either not available, too intrusive, or too expensive. In this paper, we present a modular, interpretable pipeline for pulse signal estimation from video of the face that achieves state-of-the-art results on publicly available datasets.Our imaging photoplethysmography (iPPG) system consists of three modules: face and landmark detection, time-series extraction, and pulse signal/pulse rate estimation. Unlike many deep learning methods that make use of a single black-box model that maps directly from input video to output signal or heart rate, our modular approach enables each of the three parts of the pipeline to be interpreted individually. The pulse signal estimation module, which we call TURNIP (Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography), allows the system to faithfully reconstruct the underlying pulse signal waveform and uses it to measure heart rate and pulse rate variability metrics, even in the presence of motion. When parts of the face are occluded due to extreme head poses, our system explicitly detects such "self-occluded" regions and maintains estimation robustness despite the missing information. Our algorithm provides reliable heart rate estimates without the need for specialized sensors or contact with the skin, outperforming previous iPPG methods on both color (RGB) and near-infrared (NIR) datasets.