Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization
作者: Jitesh Joshi, Youngjun Cho
分类: cs.CV, cs.AI
发布日期: 2025-05-11
备注: 25 pages, 6 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出TSFM约束的多维注意力机制,提升远程生理信号感知的跨域泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 远程生理信号感知 多维注意力机制 领域泛化 多任务学习 多模态融合
📋 核心要点
- 现有深度学习方法在远程生理信号感知中缺乏对领域偏移的鲁棒性,如光照、设备、姿态和生理状态变化。
- 论文提出目标信号约束分解模块(TSFM),通过将生理信号特征作为约束,实现更精确的特征提取,增强模型泛化能力。
- MMRPhys在跨数据集评估中显著优于现有方法,同时保持低延迟,适合实时应用,为多任务生理传感建立新基准。
📝 摘要(中文)
本文提出了一种用于远程生理信号感知的目标信号约束分解模块(TSFM),这是一种新颖的多维注意力机制,它显式地将生理信号特征作为分解约束,从而实现更精确的特征提取。在此基础上,提出了MMRPhys,一个高效的双分支3D-CNN架构,用于从多模态RGB和热视频输入中同时进行光电容积脉搏波(rPPG)和呼吸(rRSP)信号的多任务估计。通过在五个基准数据集上进行全面的跨数据集评估,证明了带有TSFM的MMRPhys在rPPG和rRSP估计的跨域泛化方面显著优于最先进的方法,同时保持了适用于实时应用的最小推理延迟。该方法为稳健的多任务和多模态生理传感建立了新的基准,并为在不受约束的环境中进行实际部署提供了一个计算效率高的框架。
🔬 方法详解
问题定义:现有基于深度学习的远程生理信号感知方法,在面对真实场景中常见的领域偏移(如光照变化、摄像头差异、头部运动、面部姿势和生理状态变化)时,鲁棒性不足。跨数据集评估表明,这些方法在不同数据集上的泛化能力较差,限制了其在实际应用中的效果。
核心思路:论文的核心思路是将生理信号的先验知识融入到特征提取过程中,通过目标信号约束分解模块(TSFM)显式地利用生理信号的特征作为约束条件,引导模型学习更具判别性和鲁棒性的特征表示。这样可以减少模型对特定领域特征的过度依赖,从而提高其在不同领域之间的泛化能力。
技术框架:MMRPhys是一个双分支3D-CNN架构,用于同时估计rPPG和rRSP信号。它包含两个分支,分别处理RGB和热视频输入。每个分支都包含多个3D卷积层和TSFM模块,用于提取时空特征并进行特征分解。最后,两个分支的特征被融合,并通过回归层预测rPPG和rRSP信号。
关键创新:论文的关键创新在于TSFM模块,它是一种多维注意力机制,通过将生理信号特征作为分解约束,引导模型学习与目标信号相关的特征。TSFM模块能够自适应地调整不同特征通道的权重,从而突出与生理信号相关的特征,抑制与领域相关的噪声。
关键设计:TSFM模块的具体实现包括以下步骤:首先,通过一个线性层将输入特征映射到低维空间。然后,利用生理信号的先验知识(例如,rPPG和rRSP信号的频率范围)构建一个目标信号矩阵。接下来,通过最小化输入特征和目标信号矩阵之间的差异,学习一个分解矩阵。最后,利用分解矩阵对输入特征进行加权,得到最终的特征表示。损失函数包括回归损失(用于预测rPPG和rRSP信号)和分解损失(用于约束特征分解过程)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MMRPhys在五个基准数据集上显著优于现有方法,在跨数据集评估中表现出更强的泛化能力。例如,在某些数据集上,MMRPhys的性能提升超过10%。此外,MMRPhys保持了较低的推理延迟,适用于实时应用。论文提供的在线演示应用进一步验证了该方法在实际场景中的可行性。
🎯 应用场景
该研究成果可广泛应用于医疗健康、人机交互等领域。例如,可以用于远程患者监护、驾驶员疲劳检测、智能家居健康管理等场景。通过非接触式的方式实时监测用户的生理信号,为个性化健康服务和智能决策提供支持。未来,该技术有望与可穿戴设备、智能手机等集成,实现更便捷、更普及的健康监测。
📄 摘要(原文)
Remote physiological sensing using camera-based technologies offers transformative potential for non-invasive vital sign monitoring across healthcare and human-computer interaction domains. Although deep learning approaches have advanced the extraction of physiological signals from video data, existing methods have not been sufficiently assessed for their robustness to domain shifts. These shifts in remote physiological sensing include variations in ambient conditions, camera specifications, head movements, facial poses, and physiological states which often impact real-world performance significantly. Cross-dataset evaluation provides an objective measure to assess generalization capabilities across these domain shifts. We introduce Target Signal Constrained Factorization module (TSFM), a novel multidimensional attention mechanism that explicitly incorporates physiological signal characteristics as factorization constraints, allowing more precise feature extraction. Building on this innovation, we present MMRPhys, an efficient dual-branch 3D-CNN architecture designed for simultaneous multitask estimation of photoplethysmography (rPPG) and respiratory (rRSP) signals from multimodal RGB and thermal video inputs. Through comprehensive cross-dataset evaluation on five benchmark datasets, we demonstrate that MMRPhys with TSFM significantly outperforms state-of-the-art methods in generalization across domain shifts for rPPG and rRSP estimation, while maintaining a minimal inference latency suitable for real-time applications. Our approach establishes new benchmarks for robust multitask and multimodal physiological sensing and offers a computationally efficient framework for practical deployment in unconstrained environments. The web browser-based application featuring on-device real-time inference of MMRPhys model is available at https://physiologicailab.github.io/mmrphys-live