PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

📄 arXiv: 2509.24850v2 📥 PDF

作者: Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Tao Tan, Yue Sun, Bochao Zou, Jie Zhang, Zitong Yu

分类: cs.CV

发布日期: 2025-09-29 (更新: 2025-09-30)


💡 一句话要点

提出基于物理信息的PHASE-Net,高效准确地进行远程光电容积脉搏波测量。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 远程光电容积脉搏波 rPPG 生理信号监测 深度学习 时间卷积网络 物理信息 轴向交换 自适应滤波

📋 核心要点

  1. 现有rPPG深度学习方法缺乏理论基础,在头部运动和光照变化下鲁棒性不足,可解释性较差。
  2. 论文提出基于血液动力学Navier-Stokes方程的物理信息rPPG范式,推导出脉搏信号的二阶动力系统模型,并用因果卷积实现。
  3. 提出的PHASE-Net模型包含轴向交换模块、自适应空间滤波器和门控TCN,实验表明其性能优于现有方法,且效率更高。

📝 摘要(中文)

远程光电容积脉搏波(rPPG)测量能够实现非接触式生理监测,但易受头部运动和光照变化的影响,导致精度下降。现有的深度学习方法大多是启发式的,缺乏理论基础,限制了鲁棒性和可解释性。本文提出了一种基于物理信息的rPPG范式,该范式源于血液动力学的Navier-Stokes方程,表明脉搏信号遵循二阶动力系统,其离散解自然导致因果卷积。这为使用时间卷积网络(TCN)提供了理论依据。基于此,我们设计了PHASE-Net,一个轻量级模型,包含三个关键组件:(1)零FLOPs轴向交换模块,它交换或转置一些空间通道,以混合远距离面部区域,并在不破坏时间顺序的情况下增强跨区域特征交互;(2)自适应空间滤波器,它学习每个帧的软空间掩码,以突出显示信号丰富的区域并抑制噪声;(3)门控TCN,一种具有门控的因果扩张TCN,用于建模长程时间动态,以实现精确的脉搏恢复。大量实验表明,PHASE-Net以强大的效率实现了最先进的性能,提供了一种具有理论基础且可随时部署的rPPG解决方案。

🔬 方法详解

问题定义:远程光电容积脉搏波(rPPG)测量旨在通过摄像头非接触式地获取生理信号,但容易受到头部运动、光照变化等因素的干扰,导致信号质量下降,进而影响心率等生理指标的准确测量。现有深度学习方法虽然取得了一定的进展,但大多是基于经验的启发式方法,缺乏理论支撑,难以保证在复杂环境下的鲁棒性和泛化能力。

核心思路:论文的核心思路是将rPPG信号的产生过程与血液动力学的物理规律相结合,从Navier-Stokes方程出发,推导出脉搏信号的二阶动力系统模型。该模型表明,脉搏信号的演化具有一定的规律性,可以利用因果卷积进行建模。基于这一理论基础,论文设计了一种新的神经网络结构,即PHASE-Net,以更有效地提取和处理rPPG信号。

技术框架:PHASE-Net的整体架构主要包含三个关键模块:(1) 零FLOPs轴向交换模块:用于增强跨区域特征交互,提高模型对头部运动的鲁棒性;(2) 自适应空间滤波器:用于学习每个帧的软空间掩码,突出显示信号丰富的区域并抑制噪声;(3) 门控TCN:用于建模长程时间动态,实现精确的脉搏恢复。整个网络以端到端的方式进行训练,直接从视频帧中预测rPPG信号。

关键创新:论文最重要的技术创新在于将物理信息融入到rPPG信号的处理中,为深度学习方法提供了理论基础。与现有方法相比,PHASE-Net不仅具有更好的性能,而且具有更强的可解释性。此外,零FLOPs轴向交换模块的设计也十分巧妙,能够在不增加计算量的情况下有效地增强特征交互。

关键设计:PHASE-Net的关键设计包括:(1) 零FLOPs轴向交换模块的具体实现方式,通过交换或转置部分空间通道来实现特征混合;(2) 自适应空间滤波器的损失函数设计,鼓励模型学习到能够有效区分信号和噪声的空间掩码;(3) 门控TCN中门控机制的具体实现,用于控制信息的流动,提高模型的表达能力;(4) 采用因果扩张卷积,保证模型只利用过去的信息进行预测,符合rPPG信号的因果关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PHASE-Net在多个公开数据集上取得了state-of-the-art的性能。例如,在PURE数据集上,PHASE-Net的平均绝对误差(MAE)显著低于现有方法。此外,PHASE-Net的计算效率也很高,可以在移动设备上实时运行,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于各种非接触式生理监测场景,例如远程医疗、智能家居、车载健康监测等。通过摄像头实时监测用户的心率等生理指标,可以及时发现潜在的健康问题,并提供个性化的健康建议。此外,该技术还可以应用于运动监测、情绪识别等领域,具有广阔的应用前景。

📄 摘要(原文)

Remote photoplethysmography (rPPG) measurement enables non-contact physiological monitoring but suffers from accuracy degradation under head motion and illumination changes. Existing deep learning methods are mostly heuristic and lack theoretical grounding, which limits robustness and interpretability. In this work, we propose a physics-informed rPPG paradigm derived from the Navier-Stokes equations of hemodynamics, showing that the pulse signal follows a second-order dynamical system whose discrete solution naturally leads to a causal convolution. This provides a theoretical justification for using a Temporal Convolutional Network (TCN). Based on this principle, we design PHASE-Net, a lightweight model with three key components: (1) Zero-FLOPs Axial Swapper module, which swaps or transposes a few spatial channels to mix distant facial regions and enhance cross-region feature interaction without breaking temporal order; (2) Adaptive Spatial Filter, which learns a soft spatial mask per frame to highlight signal-rich areas and suppress noise; and (3) Gated TCN, a causal dilated TCN with gating that models long-range temporal dynamics for accurate pulse recovery. Extensive experiments demonstrate that PHASE-Net achieves state-of-the-art performance with strong efficiency, offering a theoretically grounded and deployment-ready rPPG solution.