VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

📄 arXiv: 2602.23771v1 📥 PDF

作者: Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage, Helitha Kulatunga, Pamuditha Somarathne, Udaya S. K. P. Miriya Thanthrige, Nishani Lucas, Anusha Withana, Joshua P. Kulasingham

分类: eess.IV, cs.CV

发布日期: 2026-02-27

备注: 11 pages, 3 figures, 5 tables. Preprint. Intended for submission to an IEEE Journal


💡 一句话要点

VideoPulse:通过面部视频非接触式估计新生儿心率和血氧饱和度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 远程光电容积脉搏波描记法 新生儿监护 非接触式监测 心率估计 血氧饱和度估计

📋 核心要点

  1. 传统新生儿生命体征监测依赖接触式探头,易刺激脆弱皮肤并增加感染风险,非接触式监测需求迫切。
  2. VideoPulse提出了一种基于面部视频的非接触式心率和血氧饱和度估计流程,包含数据收集、预处理和模型训练。
  3. 实验表明,该方法在新生儿数据集上取得了良好的心率和血氧饱和度估计精度,具有实际应用潜力。

📝 摘要(中文)

本文提出了VideoPulse,一个新生儿数据集以及一个端到端流程,用于从面部视频估计新生儿的心率和外周毛细血管氧饱和度(SpO2)。VideoPulse包含来自52名新生儿的157个记录,总计2.6小时,涵盖了不同的面部朝向。该流程执行面部对齐和伪影感知监督,使用去噪的脉搏血氧仪信号,然后应用3D CNN骨干网络进行心率和SpO2回归,并采用标签分布平滑和SpO2的加权回归。预测以2秒窗口生成。在NBHR新生儿数据集上,使用2秒窗口获得心率MAE为2.97 bpm(6秒窗口为2.80 bpm),SpO2 MAE为1.69%。在跨数据集评估中,NBHR训练的心率模型在VideoPulse上达到5.34 bpm MAE,并且在VideoPulse上微调NBHR预训练的SpO2模型产生1.68%的MAE。这些结果表明,短的未对齐的新生儿视频片段可以支持准确的心率和SpO2估计,从而在新生儿重症监护中实现低成本的非侵入式监测。

🔬 方法详解

问题定义:现有新生儿心率和血氧饱和度监测主要依赖接触式传感器,长期使用会对新生儿娇嫩的皮肤造成刺激,增加感染风险,并且限制了新生儿的活动自由。因此,需要一种非接触式、无创的监测方法。

核心思路:论文的核心思路是利用远程光电容积脉搏波描记法(rPPG),通过分析面部视频中皮肤反射的光强变化来提取心率和血氧饱和度信息。通过构建端到端流程,直接从原始视频数据预测心率和SpO2,避免了传统方法中复杂的手工特征提取步骤。

技术框架:VideoPulse流程主要包含以下几个阶段:1) 数据采集:构建包含多种面部朝向的新生儿面部视频数据集VideoPulse。2) 面部对齐:对视频帧进行面部检测和对齐,以减少头部运动的影响。3) 伪影感知监督:利用去噪后的脉搏血氧仪信号作为监督信息,训练模型以减少噪声和伪影的影响。4) 模型训练:使用3D CNN骨干网络进行心率和SpO2回归,并采用标签分布平滑和加权回归等技术提高模型性能。

关键创新:该论文的关键创新在于:1) 构建了包含多种面部朝向的新生儿面部视频数据集VideoPulse,为相关研究提供了数据基础。2) 提出了一个端到端的非接触式心率和SpO2估计流程,可以直接从原始视频数据预测生命体征。3) 采用了伪影感知监督、标签分布平滑和加权回归等技术,提高了模型在噪声环境下的鲁棒性和准确性。

关键设计:在模型训练方面,使用了3D CNN作为骨干网络,以捕捉视频中的时序信息。采用了标签分布平滑技术,将硬标签转换为软标签,以减少过拟合。对于SpO2回归,使用了加权回归损失函数,对不同范围内的SpO2值赋予不同的权重,以提高模型在临床重要范围内的预测精度。具体网络结构和参数设置未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在NBHR数据集上,该方法使用2秒窗口获得了2.97 bpm的心率MAE和1.69%的SpO2 MAE。在跨数据集评估中,NBHR训练的心率模型在VideoPulse上获得了5.34 bpm的MAE,而微调后的SpO2模型在VideoPulse上获得了1.68%的MAE,表明该方法具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于新生儿重症监护室(NICU),实现对新生儿心率和血氧饱和度的非接触式、连续监测,减少对新生儿的干扰和刺激,降低感染风险,并可能扩展到家庭监护场景,为早产儿或高危新生儿提供远程健康监测服务,具有重要的临床应用价值和社会意义。

📄 摘要(原文)

Remote photoplethysmography (rPPG) enables contact free monitoring of vital signs and is especially valuable for neonates, since conventional methods often require sustained skin contact with adhesive probes that can irritate fragile skin and increase infection control burden. We present VideoPulse, a neonatal dataset and an end to end pipeline that estimates neonatal heart rate and peripheral capillary oxygen saturation (SpO2) from facial video. VideoPulse contains 157 recordings totaling 2.6 hours from 52 neonates with diverse face orientations. Our pipeline performs face alignment and artifact aware supervision using denoised pulse oximeter signals, then applies 3D CNN backbones for heart rate and SpO2 regression with label distribution smoothing and weighted regression for SpO2. Predictions are produced in 2 second windows. On the NBHR neonatal dataset, we obtain heart rate MAE 2.97 bpm using 2 second windows (2.80 bpm at 6 second windows) and SpO2 MAE 1.69 percent. Under cross dataset evaluation, the NBHR trained heart rate model attains 5.34 bpm MAE on VideoPulse, and fine tuning an NBHR pretrained SpO2 model on VideoPulse yields MAE 1.68 percent. These results indicate that short unaligned neonatal video segments can support accurate heart rate and SpO2 estimation, enabling low cost non invasive monitoring in neonatal intensive care.