Joint Spatial-Temporal Modeling and Contrastive Learning for Self-supervised Heart Rate Measurement

作者: Wei Qian, Qi Li, Kun Li, Xinke Wang, Xiao Sun, Meng Wang, Dan Guo

分类: cs.CV

发布日期: 2024-06-07

💡 一句话要点

提出时空建模与对比学习相结合的自监督心率测量方法，在RePSS Challenge中获得第二名。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自监督学习 心率测量 远程生理信号 时空建模 对比学习

📋 核心要点

现有心率测量方法在无标签数据上的泛化能力不足，难以适应复杂场景。
论文提出结合时空建模与对比学习的自监督框架，挖掘rPPG信号的内在特性。
实验结果表明，该方法在RePSS挑战赛中取得了优异成绩，RMSE为8.85277，排名第二。

📝 摘要（中文）

本文简要介绍了HFUT-VUT团队为IJCAI 2024举办的第三届基于视觉的远程生理信号感知（RePSS）挑战赛中自监督心率测量赛道1开发的解决方案。目标是开发一种使用未标记面部视频进行心率（HR）估计的自监督学习算法。为了解决这个任务，我们提出了两种集成了时空建模和对比学习的自监督HR估计解决方案。具体来说，我们首先提出了一个基于时空建模的非端到端自监督HR测量框架，该框架可以有效地捕捉细微的rPPG线索，并利用rPPG固有的带宽和周期性特征来约束模型。同时，我们采用了一种基于对比学习的出色的端到端解决方案，旨在从互补的角度推广到不同的场景。最后，我们通过集成策略结合上述解决方案的优势来生成最终预测，从而实现更准确的HR估计。最终，我们的解决方案在测试数据集上获得了8.85277的显著RMSE分数，在挑战赛赛道1中获得第二名。

🔬 方法详解

问题定义：现有基于视觉的远程心率测量方法通常依赖于大量的标注数据进行训练，但在实际应用中，获取大规模标注数据成本高昂。此外，不同场景下的光照、姿态、运动等因素变化较大，导致模型泛化能力不足。因此，如何在无标签或少量标签数据的情况下，实现鲁棒且准确的心率测量是一个重要的研究问题。

核心思路：论文的核心思路是利用自监督学习方法，从无标签的面部视频中学习到rPPG（remote photoplethysmography）信号的内在特征，并结合时空建模和对比学习两种策略，提高模型对不同场景的适应能力。时空建模侧重于捕捉rPPG信号的周期性和带宽特性，而对比学习则旨在学习不同场景下的不变性特征。

技术框架：该方法包含两个主要的自监督学习框架：1) 基于时空建模的非端到端框架：该框架首先提取面部视频中的rPPG信号，然后利用时空模型（如LSTM或Transformer）对rPPG信号进行建模，并通过预测未来的rPPG信号或重建原始rPPG信号来训练模型。2) 基于对比学习的端到端框架：该框架直接将面部视频作为输入，通过对比学习的方式，学习不同场景下的不变性特征，并最终预测心率。最后，通过集成两种框架的预测结果，得到最终的心率估计。

关键创新：该论文的关键创新在于将时空建模和对比学习相结合，用于自监督的心率测量。时空建模能够有效地捕捉rPPG信号的周期性和带宽特性，而对比学习则能够学习不同场景下的不变性特征。通过集成两种方法的优势，可以提高模型对不同场景的适应能力，从而实现更鲁棒且准确的心率测量。

关键设计：在时空建模框架中，论文可能采用了LSTM或Transformer等模型来对rPPG信号进行建模，并使用均方误差（MSE）或交叉熵损失函数来训练模型。在对比学习框架中，论文可能采用了InfoNCE损失函数来学习不同场景下的不变性特征。此外，论文还可能采用了数据增强技术，如随机裁剪、旋转、颜色抖动等，来增加模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

该团队提出的方法在IJCAI 2024 RePSS挑战赛的自监督心率测量赛道1中获得了第二名，在测试集上取得了8.85277的RMSE分数。这一结果表明，该方法在无标签数据上的心率测量方面具有较强的竞争力。

🎯 应用场景

该研究成果可应用于远程医疗、智能健康监测、驾驶员疲劳检测等领域。通过分析面部视频，无需接触即可实现心率监测，具有便捷性和非侵入性。未来，结合其他生理信号，可实现更全面的健康评估和预警。

📄 摘要（原文）

This paper briefly introduces the solutions developed by our team, HFUT-VUT, for Track 1 of self-supervised heart rate measurement in the 3rd Vision-based Remote Physiological Signal Sensing (RePSS) Challenge hosted at IJCAI 2024. The goal is to develop a self-supervised learning algorithm for heart rate (HR) estimation using unlabeled facial videos. To tackle this task, we present two self-supervised HR estimation solutions that integrate spatial-temporal modeling and contrastive learning, respectively. Specifically, we first propose a non-end-to-end self-supervised HR measurement framework based on spatial-temporal modeling, which can effectively capture subtle rPPG clues and leverage the inherent bandwidth and periodicity characteristics of rPPG to constrain the model. Meanwhile, we employ an excellent end-to-end solution based on contrastive learning, aiming to generalize across different scenarios from complementary perspectives. Finally, we combine the strengths of the above solutions through an ensemble strategy to generate the final predictions, leading to a more accurate HR estimation. As a result, our solutions achieved a remarkable RMSE score of 8.85277 on the test dataset, securing \textbf{2nd place} in Track 1 of the challenge.

Joint Spatial-Temporal Modeling and Contrastive Learning for Self-supervised Heart Rate Measurement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理