Contactless Cardiac Pulse Monitoring Using Event Cameras

📄 arXiv: 2505.09529v2 📥 PDF

作者: Mohamed Moustafa, Joseph Lemley, Peter Corcoran

分类: cs.CV, cs.ET, cs.LG, eess.IV

发布日期: 2025-05-14 (更新: 2025-06-24)


💡 一句话要点

提出基于事件相机的非接触式心率监测方法,利用卷积神经网络从面部事件流中提取心率信号。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 非接触式心率监测 卷积神经网络 生理信号处理 远程医疗

📋 核心要点

  1. 传统心率监测依赖接触式传感器,存在不便和潜在感染风险,非接触式方案是研究热点。
  2. 利用事件相机高动态范围和时间分辨率的优势,从面部事件流中提取心率信号。
  3. 构建端到端CNN模型,直接从事件流二维表示中回归心率,实验证明了其有效性。

📝 摘要(中文)

本文研究了使用事件相机非接触式重建个体心率信号的方法。事件相机是一种新型技术,能以极低的延迟和功耗记录场景信息。它输出事件流,封装了场景中像素级的光强度变化,以比传统相机更高的动态范围和时间分辨率捕获信息。本研究探索了使用监督卷积神经网络(CNN)模型,从面部事件记录中非接触式重建个体的心率信号。训练了一个端到端模型,从事件流的二维表示中提取心率信号,并根据计算出的心率的准确性评估模型性能。实验结果证实,面部区域的生理心脏信息有效地保留在事件流中,展示了这种新型传感器在远程心率监测方面的潜力。在事件帧上训练的模型达到了3.32 bpm的均方根误差(RMSE),而基于标准相机帧的基线模型达到了2.92 bpm的RMSE。此外,在60和120 FPS下生成的事件帧上训练的模型优于30 FPS的标准相机结果,分别实现了2.54和2.13 bpm的RMSE。

🔬 方法详解

问题定义:传统心率监测方法通常需要接触式传感器,这限制了其在某些场景下的应用,例如远程医疗和长期监测。现有的非接触式方法,如基于传统RGB相机的光流法或面部区域颜色变化分析,容易受到光照变化和运动伪影的影响,鲁棒性较差。因此,需要一种更可靠、非侵入式的远程心率监测方法。

核心思路:本文的核心思路是利用事件相机对光照变化不敏感且具有高时间分辨率的特性,捕捉面部细微的运动和光强变化,这些变化与心跳引起的血液流动相关。通过分析事件相机产生的事件流,可以提取出隐藏在其中的心率信息。

技术框架:整体框架是一个端到端的监督学习流程。首先,使用事件相机记录面部区域的事件流。然后,将事件流转换为二维表示(例如,事件帧或事件计数图)。接下来,将二维表示输入到卷积神经网络(CNN)模型中。CNN模型负责从事件流中提取特征,并回归心率信号。最后,使用真实心率数据计算损失函数,并反向传播更新模型参数。

关键创新:本研究的关键创新在于将事件相机应用于非接触式心率监测。事件相机能够以极高的帧率和动态范围捕捉光强变化,这使得它能够捕捉到面部细微的生理信号,而传统相机可能无法做到。此外,端到端CNN模型的训练方法简化了特征提取和信号处理的流程,提高了心率估计的准确性。

关键设计:论文中使用了卷积神经网络(CNN)作为核心模型。具体的网络结构未知,但可以推测其包含卷积层、池化层和全连接层。损失函数选择方面,可能使用了均方误差(MSE)或均方根误差(RMSE)来衡量预测心率与真实心率之间的差异。事件流的二维表示方式(事件帧或事件计数图)以及CNN模型的具体参数设置(如卷积核大小、通道数等)是影响模型性能的关键设计因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于事件相机的模型在心率估计方面具有竞争力。在事件帧上训练的模型达到了3.32 bpm的均方根误差(RMSE),略逊于基于标准相机帧的基线模型(2.92 bpm)。但更重要的是,在60和120 FPS下生成的事件帧上训练的模型优于30 FPS的标准相机结果,分别实现了2.54和2.13 bpm的RMSE。这表明事件相机在高帧率下能够捕捉到更多的心率信息,从而提高估计精度。

🎯 应用场景

该研究成果可应用于远程医疗、智能家居、运动健康监测等领域。例如,可以在无需穿戴任何设备的情况下,通过智能手机或监控摄像头监测用户的心率,为慢性病管理、睡眠质量评估和运动训练提供数据支持。未来,该技术有望与人工智能算法结合,实现更智能化的健康管理和疾病预警。

📄 摘要(原文)

Time event cameras are a novel technology for recording scene information at extremely low latency and with low power consumption. Event cameras output a stream of events that encapsulate pixel-level light intensity changes within the scene, capturing information with a higher dynamic range and temporal resolution than traditional cameras. This study investigates the contact-free reconstruction of an individual's cardiac pulse signal from time event recording of their face using a supervised convolutional neural network (CNN) model. An end-to-end model is trained to extract the cardiac signal from a two-dimensional representation of the event stream, with model performance evaluated based on the accuracy of the calculated heart rate. The experimental results confirm that physiological cardiac information in the facial region is effectively preserved within the event stream, showcasing the potential of this novel sensor for remote heart rate monitoring. The model trained on event frames achieves a root mean square error (RMSE) of 3.32 beats per minute (bpm) compared to the RMSE of 2.92 bpm achieved by the baseline model trained on standard camera frames. Furthermore, models trained on event frames generated at 60 and 120 FPS outperformed the 30 FPS standard camera results, achieving an RMSE of 2.54 and 2.13 bpm, respectively.