CardiacMamba: A Multimodal RGB-RF Fusion Framework with State Space Models for Remote Physiological Measurement

📄 arXiv: 2502.13624v1 📥 PDF

作者: Zheng Wu, Yiping Xie, Bo Zhao, Jiguang He, Fei Luo, Ning Deng, Zitong Yu

分类: cs.CV

发布日期: 2025-02-19

🔗 代码/项目: GITHUB


💡 一句话要点

CardiacMamba:提出多模态RGB-RF融合框架,用于远程生理信号测量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 远程生理测量 心率估计 多模态融合 RGB-RF 状态空间模型 深度学习 时间序列分析

📋 核心要点

  1. 传统rPPG方法易受光照、运动和肤色影响,难以兼顾鲁棒性和准确性。
  2. CardiacMamba融合RGB和RF模态,利用时间差Mamba模块和双向SSM进行特征提取和跨模态对齐。
  3. 在EquiPleth数据集上,CardiacMamba显著提升了心率估计的准确性和鲁棒性,并减轻了肤色偏差。

📝 摘要(中文)

本文提出了一种名为CardiacMamba的多模态RGB-RF融合框架,用于远程光电容积脉搏波(rPPG)的心率(HR)估计,旨在解决传统单模态方法(RGB或射频(RF))在光照变化、运动伪影和肤色偏差方面面临的鲁棒性和准确性挑战。CardiacMamba利用两种模态的互补优势,引入时间差Mamba模块(TDMM)来捕捉RF信号的动态变化,增强局部和全局特征的提取。此外,采用双向SSM进行跨模态对齐,并使用通道式快速傅里叶变换(CFFT)有效地捕获和细化RGB和RF信号的频域特征,最终提高心率估计的准确性和周期性检测。在EquiPleth数据集上的大量实验表明,该方法达到了最先进的性能,在准确性和鲁棒性方面取得了显著的改进,并显著减轻了肤色偏差,在缺失模态的情况下保持了弹性。通过解决公平性、适应性和精度方面的关键挑战,该框架推动了rPPG技术在医疗保健领域可靠的实际部署。

🔬 方法详解

问题定义:远程生理信号测量,特别是心率估计,在非接触式健康监测中具有重要意义。然而,传统的基于RGB或RF的单模态rPPG方法在实际应用中面临诸多挑战。RGB方法易受光照变化、运动伪影和肤色偏差的影响,导致准确性下降。RF方法虽然对光照不敏感,但容易受到环境噪声和运动干扰。因此,如何在复杂环境下实现准确、鲁棒且公平的远程心率估计是一个亟待解决的问题。

核心思路:CardiacMamba的核心思路是融合RGB和RF两种模态的互补优势,利用深度学习模型学习两种模态之间的关联性,从而提高心率估计的准确性和鲁棒性。RGB信息提供丰富的视觉特征,而RF信息对光照不敏感,两者结合可以有效克服单模态方法的局限性。此外,论文还特别关注了模型的公平性,旨在减轻肤色偏差对性能的影响。

技术框架:CardiacMamba的整体框架包括以下几个主要模块:1) Temporal Difference Mamba Module (TDMM):用于提取RF信号的时序特征,捕捉动态变化。2) Bidirectional SSM (State Space Model):用于跨模态对齐,建立RGB和RF信号之间的关联。3) Channel-wise Fast Fourier Transform (CFFT):用于提取RGB和RF信号的频域特征,提高心率估计的准确性。整个流程首先对RGB和RF信号进行预处理,然后分别输入TDMM和CFFT提取特征,再通过Bidirectional SSM进行跨模态融合,最后输出心率估计结果。

关键创新:CardiacMamba的关键创新在于以下几个方面:1) 多模态融合:首次将RGB和RF信息融合用于rPPG心率估计,充分利用两种模态的互补优势。2) Temporal Difference Mamba Module (TDMM):针对RF信号的特点,设计了TDMM模块,有效提取时序特征。3) Bidirectional SSM:采用双向SSM进行跨模态对齐,提高了模型的鲁棒性。4) Channel-wise Fast Fourier Transform (CFFT):在通道维度进行FFT,更有效地提取频域特征。

关键设计:TDMM模块通过计算相邻帧之间的差异来捕捉RF信号的动态变化。Bidirectional SSM采用双向结构,可以同时考虑过去和未来的信息,从而提高跨模态对齐的准确性。CFFT在通道维度进行FFT,可以更好地保留不同通道的特征信息。损失函数方面,论文可能采用了均方误差(MSE)或类似的回归损失函数来优化心率估计结果。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CardiacMamba在EquiPleth数据集上取得了显著的性能提升,达到了state-of-the-art水平。具体而言,该方法在心率估计的准确性和鲁棒性方面均优于现有方法,并显著减轻了肤色偏差,提高了模型的公平性。此外,CardiacMamba在缺失模态的情况下仍能保持较好的性能,表明其具有较强的适应性。具体的性能数据和对比基线需要在论文中进一步查阅。

🎯 应用场景

CardiacMamba具有广泛的应用前景,可用于远程健康监测、智能家居、车载健康系统等领域。通过非接触式的心率估计,可以实现对用户健康状况的实时监测和预警,为疾病预防和管理提供支持。该技术还可以应用于运动监测、睡眠监测等场景,为用户提供个性化的健康管理方案。未来,CardiacMamba有望成为智能医疗领域的重要组成部分。

📄 摘要(原文)

Heart rate (HR) estimation via remote photoplethysmography (rPPG) offers a non-invasive solution for health monitoring. However, traditional single-modality approaches (RGB or Radio Frequency (RF)) face challenges in balancing robustness and accuracy due to lighting variations, motion artifacts, and skin tone bias. In this paper, we propose CardiacMamba, a multimodal RGB-RF fusion framework that leverages the complementary strengths of both modalities. It introduces the Temporal Difference Mamba Module (TDMM) to capture dynamic changes in RF signals using timing differences between frames, enhancing the extraction of local and global features. Additionally, CardiacMamba employs a Bidirectional SSM for cross-modal alignment and a Channel-wise Fast Fourier Transform (CFFT) to effectively capture and refine the frequency domain characteristics of RGB and RF signals, ultimately improving heart rate estimation accuracy and periodicity detection. Extensive experiments on the EquiPleth dataset demonstrate state-of-the-art performance, achieving marked improvements in accuracy and robustness. CardiacMamba significantly mitigates skin tone bias, reducing performance disparities across demographic groups, and maintains resilience under missing-modality scenarios. By addressing critical challenges in fairness, adaptability, and precision, the framework advances rPPG technology toward reliable real-world deployment in healthcare. The codes are available at: https://github.com/WuZheng42/CardiacMamba.