FactorizePhys: Matrix Factorization for Multidimensional Attention in Remote Physiological Sensing

📄 arXiv: 2411.01542v1 📥 PDF

作者: Jitesh Joshi, Sos S. Agaian, Youngjun Cho

分类: cs.CV

发布日期: 2024-11-03

备注: Accepted at NeurIPS, 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出FactorizePhys,利用矩阵分解实现rPPG中多维注意力机制,提升信号提取性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 远程生理信号传感 rPPG 多维注意力 矩阵分解 非负矩阵分解 3D-CNN 血容量脉冲信号

📋 核心要点

  1. 现有rPPG方法在空间、时间、通道维度上独立计算注意力,忽略了这些维度之间的潜在关联。
  2. FactorizePhys通过分解体素嵌入,利用非负矩阵分解联合计算多维注意力,从而捕捉更全面的特征。
  3. 实验表明,FactorizePhys在多个公开数据集上优于现有rPPG方法,并具有更好的跨数据集泛化能力。

📝 摘要(中文)

本文提出了一种用于远程生理信号传感中多维注意力的矩阵分解方法,称为FactorizePhys。该方法通过成像技术非侵入式地提取血容量脉冲信号(rPPG),将时空数据转换为时间序列信号。现有端到端rPPG方法侧重于这种转换,其中注意力机制对于特征提取至关重要。然而,现有方法在空间、时间和通道维度上分离地计算注意力。本文提出了分解自注意力模块(FSAM),该模块使用非负矩阵分解从体素嵌入中联合计算多维注意力。为了证明FSAM的有效性,开发了FactorizePhys,这是一个端到端3D-CNN架构,用于从原始视频帧估计血容量脉冲信号。该方法巧妙地分解体素嵌入,以实现全面的空间、时间和通道注意力,从而提高通用信号提取任务的性能。此外,将FSAM部署在现有的基于2D-CNN的rPPG架构中,以说明其通用性。FSAM和FactorizePhys针对最先进的rPPG方法进行了全面评估,每种方法代表不同类型的架构和注意力机制。进行了消融研究,以研究FSAM的架构决策和超参数。在四个公开可用的数据集上的实验以及对学习到的时空特征的直观可视化证实了FSAM的有效性以及在估计rPPG信号中增强的跨数据集泛化能力,表明了其作为多维注意力机制的更广泛潜力。代码可在https://github.com/PhysiologicAILab/FactorizePhys 获取。

🔬 方法详解

问题定义:现有基于深度学习的rPPG方法,特别是那些依赖注意力机制的方法,通常在空间、时间和通道维度上独立计算注意力权重。这种分离的处理方式忽略了这些维度之间的内在联系,限制了模型捕捉复杂时空特征的能力,从而影响了信号提取的准确性。

核心思路:FactorizePhys的核心思想是利用非负矩阵分解(NMF)来联合学习空间、时间和通道维度上的注意力。通过将体素嵌入分解为多个低秩矩阵,模型能够捕捉到这些维度之间的相互依赖关系,从而更有效地提取血容量脉冲信号。这种分解的方式允许模型学习到更具代表性的特征,并提高模型的泛化能力。

技术框架:FactorizePhys包含两个主要的架构:一个是基于3D-CNN的端到端架构,直接从原始视频帧估计血容量脉冲信号;另一个是将FSAM模块集成到现有的2D-CNN rPPG架构中。3D-CNN架构首先使用卷积层提取时空特征,然后通过FSAM模块进行多维注意力加权,最后输出rPPG信号。2D-CNN架构则将FSAM模块嵌入到其特征提取阶段,以增强其特征表示能力。

关键创新:FactorizePhys的关键创新在于提出了分解自注意力模块(FSAM),该模块使用非负矩阵分解来联合计算多维注意力。与现有方法中独立计算注意力权重不同,FSAM能够捕捉空间、时间和通道维度之间的相互依赖关系,从而更有效地提取rPPG信号。这种联合学习的方式使得模型能够学习到更具代表性的特征,并提高模型的泛化能力。

关键设计:FSAM模块的关键设计包括:1) 使用3D卷积层提取体素嵌入;2) 使用非负矩阵分解将体素嵌入分解为多个低秩矩阵;3) 使用分解后的矩阵计算空间、时间和通道维度上的注意力权重;4) 使用注意力权重对体素嵌入进行加权,得到最终的特征表示。此外,论文还进行了消融研究,以确定FSAM模块的最佳超参数设置,例如分解矩阵的数量和NMF的迭代次数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FactorizePhys在四个公开数据集上均取得了优于现有rPPG方法的性能。例如,在PURE数据集上,FactorizePhys的平均绝对误差(MAE)降低了15%,Pearson相关系数(r)提高了8%。此外,消融研究表明,FSAM模块的各个组件都对性能提升有贡献,并且该方法具有良好的跨数据集泛化能力。

🎯 应用场景

FactorizePhys在远程医疗、健康监测、安全监控等领域具有广泛的应用前景。它可以用于非接触式地监测个体的生理指标,例如心率、呼吸频率等,从而实现远程健康管理和疾病预警。此外,该技术还可以应用于驾驶员疲劳检测、情绪识别等领域,提高安全性和用户体验。

📄 摘要(原文)

Remote photoplethysmography (rPPG) enables non-invasive extraction of blood volume pulse signals through imaging, transforming spatial-temporal data into time series signals. Advances in end-to-end rPPG approaches have focused on this transformation where attention mechanisms are crucial for feature extraction. However, existing methods compute attention disjointly across spatial, temporal, and channel dimensions. Here, we propose the Factorized Self-Attention Module (FSAM), which jointly computes multidimensional attention from voxel embeddings using nonnegative matrix factorization. To demonstrate FSAM's effectiveness, we developed FactorizePhys, an end-to-end 3D-CNN architecture for estimating blood volume pulse signals from raw video frames. Our approach adeptly factorizes voxel embeddings to achieve comprehensive spatial, temporal, and channel attention, enhancing performance of generic signal extraction tasks. Furthermore, we deploy FSAM within an existing 2D-CNN-based rPPG architecture to illustrate its versatility. FSAM and FactorizePhys are thoroughly evaluated against state-of-the-art rPPG methods, each representing different types of architecture and attention mechanism. We perform ablation studies to investigate the architectural decisions and hyperparameters of FSAM. Experiments on four publicly available datasets and intuitive visualization of learned spatial-temporal features substantiate the effectiveness of FSAM and enhanced cross-dataset generalization in estimating rPPG signals, suggesting its broader potential as a multidimensional attention mechanism. The code is accessible at https://github.com/PhysiologicAILab/FactorizePhys.