ToTMNet: FFT-Accelerated Toeplitz Temporal Mixing Network for Lightweight Remote Photoplethysmography

📄 arXiv: 2601.04159v1 📥 PDF

作者: Vladimir Frants, Sos Agaian, Karen Panetta

分类: cs.CV

发布日期: 2026-01-07


💡 一句话要点

提出ToTMNet,利用FFT加速的Toeplitz时序混合网络实现轻量级远程光电容积脉搏波估计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 远程光电容积脉搏波 rPPG 心率估计 Toeplitz矩阵 FFT加速 时序建模 轻量级网络

📋 核心要点

  1. 现有rPPG深度学习方法计算成本高、参数量大,且基于注意力机制的时序建模存在二次方复杂度问题。
  2. ToTMNet利用FFT加速的Toeplitz时序混合层替代传统注意力机制,实现线性复杂度的全局时序建模。
  3. 实验表明,ToTMNet在UBFC-rPPG和SCAMPS数据集上取得了良好的心率估计精度,且模型参数量仅为63k。

📝 摘要(中文)

本文提出了一种轻量级的远程光电容积脉搏波(rPPG)架构ToTMNet,用于从普通摄像头拍摄的面部视频中估计血容量脉搏(BVP)波形。尽管最近的深度模型相比传统的信号处理方法提高了鲁棒性,但许多方法增加了计算成本和参数数量,并且基于注意力机制的时序建模引入了关于时序长度的二次方缩放。ToTMNet用FFT加速的Toeplitz时序混合层取代了时序注意力。Toeplitz算子使用关于剪辑长度的线性数量的参数提供全序列时序感受野,并且可以使用循环嵌入和基于FFT的卷积在近似线性的时间内应用。ToTMNet将全局Toeplitz时序算子集成到一个紧凑的门控时序混合器中,该混合器将局部深度方向时序卷积分支与门控全局Toeplitz混合相结合,从而实现高效的长程时序滤波,同时仅具有63k个参数。在两个数据集UBFC-rPPG(真实视频)和SCAMPS(合成视频)上的实验表明,ToTMNet以紧凑的设计实现了强大的心率估计精度。在UBFC-rPPG数据集内评估中,ToTMNet达到了1.055 bpm的MAE和0.996的Pearson相关性。在合成到真实的设置(SCAMPS到UBFC-rPPG)中,ToTMNet达到了1.582 bpm的MAE和0.994的Pearson相关性。消融实验结果证实,门控机制对于有效使用全局Toeplitz混合非常重要,尤其是在领域转移下。本预印本研究的主要局限性在于仅使用了两个数据集;然而,结果表明,Toeplitz结构的时序混合是rPPG中注意力的实用且有效的替代方案。

🔬 方法详解

问题定义:论文旨在解决远程光电容积脉搏波(rPPG)中,现有深度学习模型计算成本高、参数量大,以及注意力机制带来的时序建模复杂度过高的问题。现有方法难以在资源受限的设备上部署,且长时序建模效率低下。

核心思路:论文的核心思路是利用Toeplitz矩阵的特殊结构,结合FFT加速卷积运算,构建一种高效的全局时序混合层。Toeplitz矩阵能够捕捉序列中任意两个时间点之间的关系,提供全局感受野,同时通过FFT加速卷积,降低计算复杂度。

技术框架:ToTMNet的整体架构包含以下几个主要模块:1) 特征提取模块(论文中未明确说明具体结构,但推测为卷积神经网络);2) Toeplitz时序混合层:利用FFT加速的Toeplitz矩阵进行全局时序建模;3) 门控机制:结合局部深度方向时序卷积分支,通过门控机制控制全局Toeplitz混合的权重,增强模型的鲁棒性。整体流程是:输入面部视频,经过特征提取,然后通过Toeplitz时序混合层进行时序建模,最后输出BVP波形。

关键创新:最重要的技术创新点在于使用FFT加速的Toeplitz矩阵进行全局时序建模。与传统的注意力机制相比,Toeplitz矩阵具有线性复杂度的优势,能够高效地处理长时序数据。此外,结合门控机制,能够更好地控制全局信息的利用,提高模型的泛化能力。与现有方法的本质区别在于,ToTMNet避免了注意力机制的二次方复杂度,实现了轻量级且高效的时序建模。

关键设计:ToTMNet的关键设计包括:1) Toeplitz矩阵的构建方式:论文中未详细说明Toeplitz矩阵的具体参数设置,但提到使用线性数量的参数;2) FFT加速卷积的实现:利用循环嵌入将Toeplitz矩阵转换为循环矩阵,然后使用FFT进行快速卷积运算;3) 门控机制的设计:论文中未详细说明门控机制的具体实现方式,但提到结合了局部深度方向时序卷积分支。

📊 实验亮点

ToTMNet在UBFC-rPPG数据集上取得了1.055 bpm的MAE和0.996的Pearson相关性,在SCAMPS到UBFC-rPPG的跨数据集评估中取得了1.582 bpm的MAE和0.994的Pearson相关性。这些结果表明,ToTMNet在心率估计精度方面具有竞争力,并且具有较强的泛化能力。

🎯 应用场景

ToTMNet具有轻量级和高效的特点,适用于资源受限的设备上的远程健康监测应用,例如智能手机、可穿戴设备等。该技术可以用于实时心率监测、情绪识别、压力检测等领域,具有广泛的应用前景。

📄 摘要(原文)

Remote photoplethysmography (rPPG) estimates a blood volume pulse (BVP) waveform from facial videos captured by commodity cameras. Although recent deep models improve robustness compared to classical signal-processing approaches, many methods increase computational cost and parameter count, and attention-based temporal modeling introduces quadratic scaling with respect to the temporal length. This paper proposes ToTMNet, a lightweight rPPG architecture that replaces temporal attention with an FFT-accelerated Toeplitz temporal mixing layer. The Toeplitz operator provides full-sequence temporal receptive field using a linear number of parameters in the clip length and can be applied in near-linear time using circulant embedding and FFT-based convolution. ToTMNet integrates the global Toeplitz temporal operator into a compact gated temporal mixer that combines a local depthwise temporal convolution branch with gated global Toeplitz mixing, enabling efficient long-range temporal filtering while only having 63k parameters. Experiments on two datasets, UBFC-rPPG (real videos) and SCAMPS (synthetic videos), show that ToTMNet achieves strong heart-rate estimation accuracy with a compact design. On UBFC-rPPG intra-dataset evaluation, ToTMNet reaches 1.055 bpm MAE with Pearson correlation 0.996. In a synthetic-to-real setting (SCAMPS to UBFC-rPPG), ToTMNet reaches 1.582 bpm MAE with Pearson correlation 0.994. Ablation results confirm that the gating mechanism is important for effectively using global Toeplitz mixing, especially under domain shift. The main limitation of this preprint study is the use of only two datasets; nevertheless, the results indicate that Toeplitz-structured temporal mixing is a practical and efficient alternative to attention for rPPG.