Facial Spatiotemporal Graphs: Leveraging the 3D Facial Surface for Remote Physiological Measurement
作者: Sam Cantrill, David Ahmedt-Aristizabal, Lars Petersson, Hanna Suominen, Mohammad Ali Armin
分类: cs.CV
发布日期: 2026-01-20
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出面部时空图STGraph,用于利用3D面部表面进行远程生理信号测量
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 远程生理测量 面部rPPG 时空图 图卷积网络 3D面部建模
📋 核心要点
- 现有面部rPPG方法未能有效利用3D面部表面信息,导致感受野与生理信号空间支持未对齐。
- 提出面部时空图(STGraph)和MeshPhys网络,利用3D面部网格序列编码颜色和结构,实现表面对齐的时空处理。
- 实验表明,MeshPhys在多个数据集上达到SOTA或具有竞争力的性能,验证了结构先验和3D感知特征的重要性。
📝 摘要(中文)
面部远程光电容积脉搏波(rPPG)方法通过对3D面部表面随时间的细微颜色变化进行建模来估计生理信号。然而,现有方法未能明确地将其感受野与rPPG信号的空间支持——3D面部表面对齐。为了解决这个问题,我们提出了面部时空图(STGraph),这是一种新颖的表示方法,它使用3D面部网格序列来编码面部颜色和结构,从而实现表面对齐的时空处理。我们引入了MeshPhys,一个轻量级的时空图卷积网络,它在STGraph上运行以估计生理信号。在四个基准数据集上,MeshPhys在数据集内和跨数据集设置中都实现了最先进或具有竞争力的性能。消融研究表明,将模型的感受野限制在面部表面充当了强大的结构先验,并且表面对齐的、3D感知的节点特征对于稳健地编码面部表面颜色至关重要。STGraph和MeshPhys共同构成了一种新颖的、有原则的面部rPPG建模范例,能够实现稳健、可解释和可泛化的估计。代码可在https://samcantrill.github.io/facial-stgraph-rppg/ 获取。
🔬 方法详解
问题定义:现有面部rPPG方法主要依赖于2D图像信息,忽略了面部表面的3D结构,导致模型无法有效地利用rPPG信号的空间分布特性,限制了模型的鲁棒性和泛化能力。这些方法难以将感受野与面部表面的生理信号空间支持对齐,从而影响信号提取的准确性。
核心思路:论文的核心思路是将面部表面建模为时空图(STGraph),其中节点代表面部网格顶点,边代表顶点之间的连接关系。通过这种方式,模型可以显式地利用面部表面的3D结构信息,并将感受野约束在面部表面上。同时,利用图卷积网络(GCN)处理STGraph,提取表面对齐的时空特征,从而更准确地估计生理信号。
技术框架:整体框架包括以下几个步骤:1) 从视频中提取面部网格序列;2) 构建面部时空图(STGraph),节点包含颜色和3D坐标信息;3) 使用MeshPhys网络处理STGraph,MeshPhys是一个轻量级的时空图卷积网络;4) MeshPhys输出生理信号估计结果。
关键创新:最重要的技术创新点在于提出了面部时空图(STGraph)这一表示方法,它能够显式地编码面部表面的3D结构和时序信息。与现有方法相比,STGraph能够更好地对齐感受野与生理信号的空间支持,从而提高信号提取的准确性和鲁棒性。此外,MeshPhys网络的设计也充分考虑了面部表面的几何特性,能够有效地提取表面对齐的时空特征。
关键设计:MeshPhys网络采用图卷积操作,利用面部网格的连接关系进行信息传递。节点特征包括颜色信息(RGB)和3D坐标信息(XYZ)。损失函数采用常用的信号估计损失,例如均方误差(MSE)。网络的具体结构(层数、通道数等)根据数据集和任务进行调整。关键在于保证图卷积操作能够有效地利用面部表面的几何结构信息。
📊 实验亮点
MeshPhys在四个基准数据集上取得了SOTA或具有竞争力的性能。消融实验表明,将模型的感受野限制在面部表面充当了强大的结构先验,显著提升了模型的鲁棒性。同时,3D感知的节点特征对于稳健地编码面部表面颜色至关重要。例如,在跨数据集测试中,MeshPhys相比现有方法取得了显著的性能提升。
🎯 应用场景
该研究成果可应用于远程健康监测、智能穿戴设备、车载驾驶员状态监测等领域。通过非接触式的方式,实时监测用户的心率、呼吸等生理指标,为健康管理、安全驾驶等提供支持。未来,结合其他传感器数据,可以实现更全面的生理状态评估和风险预警。
📄 摘要(原文)
Facial remote photoplethysmography (rPPG) methods estimate physiological signals by modeling subtle color changes on the 3D facial surface over time. However, existing methods fail to explicitly align their receptive fields with the 3D facial surface-the spatial support of the rPPG signal. To address this, we propose the Facial Spatiotemporal Graph (STGraph), a novel representation that encodes facial color and structure using 3D facial mesh sequences-enabling surface-aligned spatiotemporal processing. We introduce MeshPhys, a lightweight spatiotemporal graph convolutional network that operates on the STGraph to estimate physiological signals. Across four benchmark datasets, MeshPhys achieves state-of-the-art or competitive performance in both intra- and cross-dataset settings. Ablation studies show that constraining the model's receptive field to the facial surface acts as a strong structural prior, and that surface-aligned, 3D-aware node features are critical for robustly encoding facial surface color. Together, the STGraph and MeshPhys constitute a novel, principled modeling paradigm for facial rPPG, enabling robust, interpretable, and generalizable estimation. Code is available at https://samcantrill.github.io/facial-stgraph-rppg/ .