PhysNeXt: Next-Generation Dual-Branch Structured Attention Fusion Network for Remote Photoplethysmography Measurement
作者: Junzhe Cao, Bo Zhao, Zhiyi Niu, Dan Guo, Yue Sun, Haochen Liang, Yong Xu, Zitong YU
分类: cs.CV
发布日期: 2026-03-20
💡 一句话要点
PhysNeXt:用于远程光电容积脉搏波测量的双分支结构化注意力融合网络
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 远程光电容积脉搏波 rPPG 双分支网络 时空图 跨模态融合
📋 核心要点
- 现有rPPG方法易受运动伪影和光照变化影响,或丢失高频细节,导致信号提取鲁棒性不足。
- PhysNeXt通过双分支结构,联合利用视频帧和STMap表示,互补优势,提升信号提取能力。
- 实验结果表明,PhysNeXt在复杂条件下实现了更稳定和细粒度的rPPG信号恢复。
📝 摘要(中文)
远程光电容积脉搏波(rPPG)技术通过分析面部皮肤因心脏搏动引起的细微颜色变化,实现非接触式的心率和其他生命体征测量。目前,rPPG方法主要基于原始视频的端到端建模或中间时空图(STMap)表示。前者保留了完整的时空信息,可以捕获与心跳相关的细微信号,但也引入了来自运动伪影和光照变化的噪声。后者将多个面部感兴趣区域的时间颜色变化堆叠成紧凑的二维表示,显著减少了数据量和计算复杂度,但可能会丢失一些高频细节。为了有效地整合各自的优势,我们提出了PhysNeXt,一个双输入深度学习框架,它联合利用视频帧和STMap表示。通过结合时空差分建模单元、跨模态交互模块和基于结构化注意力的解码器,PhysNeXt协同增强了脉搏信号提取的鲁棒性。实验结果表明,PhysNeXt在具有挑战性的条件下实现了更稳定和细粒度的rPPG信号恢复,验证了视频和STMap表示联合建模的有效性。代码将会开源。
🔬 方法详解
问题定义:远程光电容积脉搏波(rPPG)旨在非接触式地测量心率等生命体征。现有方法主要分为两类:基于原始视频的端到端建模和基于时空图(STMap)的表示。前者虽然保留了完整的时空信息,但容易受到运动伪影和光照变化的干扰。后者虽然降低了计算复杂度,但可能丢失高频细节。因此,如何有效地融合两者的优势,提高rPPG信号提取的鲁棒性是一个关键问题。
核心思路:PhysNeXt的核心思路是利用双分支结构,同时处理原始视频帧和STMap表示。原始视频帧包含丰富的时空信息,而STMap则提供了紧凑的表示,降低了计算复杂度。通过跨模态交互,可以有效地融合两者的优势,提高rPPG信号提取的鲁棒性。
技术框架:PhysNeXt的整体架构包含以下几个主要模块:1) 时空差分建模单元:用于提取原始视频帧中的时空信息。2) 跨模态交互模块:用于融合视频帧和STMap表示。3) 结构化注意力解码器:用于从融合后的特征中提取rPPG信号。该框架采用双输入结构,分别处理视频帧和STMap,并通过跨模态交互模块进行信息融合。
关键创新:PhysNeXt的关键创新在于:1) 提出了双分支结构,联合利用视频帧和STMap表示。2) 设计了时空差分建模单元,用于提取原始视频帧中的时空信息。3) 引入了跨模态交互模块,用于融合视频帧和STMap表示。4) 采用了结构化注意力解码器,用于从融合后的特征中提取rPPG信号。与现有方法相比,PhysNeXt能够更有效地融合不同模态的信息,提高rPPG信号提取的鲁棒性。
关键设计:在时空差分建模单元中,采用了3D卷积来提取时空信息。在跨模态交互模块中,使用了注意力机制来融合视频帧和STMap表示。在结构化注意力解码器中,使用了多头注意力机制来提取rPPG信号。损失函数方面,使用了均方误差(MSE)损失函数来衡量预测的rPPG信号与真实信号之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PhysNeXt在多个公开数据集上取得了优异的性能。例如,在UBFC-rPPG数据集上,PhysNeXt的平均绝对误差(MAE)为2.8 bpm,优于现有方法。此外,PhysNeXt在具有挑战性的光照和运动条件下,仍然能够保持较高的准确率,验证了其鲁棒性。
🎯 应用场景
PhysNeXt在远程医疗、健康监测、智能家居等领域具有广泛的应用前景。它可以用于非接触式的心率监测、情绪识别、疲劳检测等。通过将PhysNeXt集成到智能设备中,可以实现对用户健康状况的实时监测和预警,提高生活质量和健康水平。未来,该技术有望在医疗保健领域发挥更大的作用。
📄 摘要(原文)
Remote photoplethysmography (rPPG) enables contactless measurement of heart rate and other vital signs by analyzing subtle color variations in facial skin induced by cardiac pulsation. Current rPPG methods are mainly based on either end-to-end modeling from raw videos or intermediate spatial-temporal map (STMap) representations. The former preserves complete spatiotemporal information and can capture subtle heartbeat-related signals, but it also introduces substantial noise from motion artifacts and illumination variations. The latter stacks the temporal color changes of multiple facial regions of interest into compact two-dimensional representations, significantly reducing data volume and computational complexity, although some high-frequency details may be lost. To effectively integrate the mutual strengths, we propose PhysNeXt, a dual-input deep learning framework that jointly exploits video frames and STMap representations. By incorporating a spatio-temporal difference modeling unit, a cross-modal interaction module, and a structured attention-based decoder, PhysNeXt collaboratively enhances the robustness of pulse signal extraction. Experimental results demonstrate that PhysNeXt achieves more stable and fine-grained rPPG signal recovery under challenging conditions, validating the effectiveness of joint modeling of video and STMap representations. The codes will be released.