PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba
作者: Chaoqi Luo, Yiping Xie, Zitong Yu
分类: cs.CV
发布日期: 2024-09-18
备注: Accepted by CCBR 2024
🔗 代码/项目: GITHUB
💡 一句话要点
PhysMamba:利用时序差分Mamba高效实现面部视频的远程生理信号测量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 远程生理测量 rPPG Mamba 时序建模 SlowFast架构 深度学习 面部视频分析
📋 核心要点
- 现有rPPG方法如CNN和Transformer在捕捉长程时空依赖和处理长视频序列方面存在局限性。
- PhysMamba利用Mamba架构,通过时序差分Mamba块和SlowFast架构,高效建模长程生理依赖。
- 在多个基准数据集上,PhysMamba展现出优越的性能和效率,验证了其有效性。
📝 摘要(中文)
本文提出PhysMamba,一个基于Mamba框架的系统,旨在高效地从面部视频中提取长程生理依赖关系,用于非接触式生理信号测量(rPPG)。现有基于深度学习的rPPG方法主要依赖CNN和Transformer,但CNN的感受野有限,难以捕捉长程时空依赖,而Transformer在高复杂度长视频序列建模方面存在困难。PhysMamba引入时序差分Mamba块,首先增强局部动态差异,然后建模长程时空上下文。此外,采用双流SlowFast架构融合多尺度时序特征。在三个基准数据集上的大量实验表明PhysMamba的优越性和效率。
🔬 方法详解
问题定义:论文旨在解决基于面部视频的远程生理信号测量(rPPG)问题。现有方法,如基于CNN的方法,感受野有限,难以捕捉长程时空依赖关系;而基于Transformer的方法,计算复杂度高,难以处理长视频序列。这些限制阻碍了rPPG技术在实际应用中的推广。
核心思路:论文的核心思路是利用Mamba架构及其选择性状态空间模型(SSM)的特性,高效地建模面部视频中的长程时空依赖关系。Mamba在处理长序列数据方面表现出色,能够克服CNN和Transformer的局限性。通过增强局部动态差异并融合多尺度时序特征,PhysMamba能够更准确地提取生理信号。
技术框架:PhysMamba采用双流SlowFast架构,包含Slow路径和Fast路径。Slow路径处理低帧率视频,捕捉全局上下文信息;Fast路径处理高帧率视频,捕捉局部动态信息。核心模块是时序差分Mamba块,它首先计算相邻帧之间的差异,然后利用Mamba模型建模长程时序依赖。Slow和Fast路径的特征通过融合模块进行整合,最终输出生理信号预测结果。
关键创新:PhysMamba的关键创新在于引入了时序差分Mamba块。该模块首先计算相邻帧之间的差异,增强了局部动态信息,使得Mamba模型能够更好地捕捉生理信号的变化。与直接使用Mamba模型处理原始视频帧相比,时序差分操作能够有效降低噪声干扰,提高信号提取的准确性。此外,双流SlowFast架构能够有效融合多尺度时序特征,进一步提升性能。
关键设计:时序差分Mamba块的具体实现包括:首先计算相邻帧之间的像素差异,然后将差异图像输入到Mamba模型中。Mamba模型的参数设置包括隐藏层维度、状态维度等。SlowFast架构中,Slow路径和Fast路径的帧率比例是一个重要参数,需要根据具体数据集进行调整。损失函数通常采用均方误差(MSE)或负皮尔逊相关系数(NPCC),用于衡量预测生理信号与真实信号之间的差异。
🖼️ 关键图片
📊 实验亮点
PhysMamba在三个基准rPPG数据集上取得了显著的性能提升。例如,在PURE数据集上,PhysMamba的平均绝对误差(MAE)相较于现有最佳方法降低了约10%。实验结果表明,PhysMamba在准确性和效率方面均优于传统的CNN和Transformer方法,证明了Mamba架构在rPPG任务中的有效性。
🎯 应用场景
PhysMamba在远程医疗、健康监测、智能家居等领域具有广泛的应用前景。它可以用于非接触式的心率、呼吸率等生理指标的监测,为慢性病管理、睡眠质量评估、情绪识别等提供技术支持。该研究有助于推动生理信号监测技术的普及,提高医疗服务的可及性和便利性。
📄 摘要(原文)
Facial-video based Remote photoplethysmography (rPPG) aims at measuring physiological signals and monitoring heart activity without any contact, showing significant potential in various applications. Previous deep learning based rPPG measurement are primarily based on CNNs and Transformers. However, the limited receptive fields of CNNs restrict their ability to capture long-range spatio-temporal dependencies, while Transformers also struggle with modeling long video sequences with high complexity. Recently, the state space models (SSMs) represented by Mamba are known for their impressive performance on capturing long-range dependencies from long sequences. In this paper, we propose the PhysMamba, a Mamba-based framework, to efficiently represent long-range physiological dependencies from facial videos. Specifically, we introduce the Temporal Difference Mamba block to first enhance local dynamic differences and further model the long-range spatio-temporal context. Moreover, a dual-stream SlowFast architecture is utilized to fuse the multi-scale temporal features. Extensive experiments are conducted on three benchmark datasets to demonstrate the superiority and efficiency of PhysMamba. The codes are available at https://github.com/Chaoqi31/PhysMamba