SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting

📄 arXiv: 2407.20799v2 📥 PDF

作者: Yicheng Deng, Hideaki Hayashi, Hajime Nagahara

分类: cs.CV

发布日期: 2024-07-30 (更新: 2025-11-21)


💡 一句话要点

提出SpotFormer,一种多尺度时空Transformer,用于面部表情定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 面部表情定位 微表情识别 时空Transformer 多尺度特征 光流特征 监督对比学习 滑动窗口 行为分析

📋 核心要点

  1. 现有面部表情定位方法难以区分无关面部运动,且微表情的细微动作难以检测,导致定位精度不高。
  2. 提出SpotFormer,利用滑动窗口多时间分辨率光流提取细微动作,并使用多尺度时空Transformer编码时空关系。
  3. 在多个数据集上进行实验,结果表明该方法在面部表情定位,尤其是在微表情定位方面,优于现有技术。

📝 摘要(中文)

面部表情定位,即识别视频中面部表情发生的时段,是面部表情分析中一项重要但具有挑战性的任务。无关的面部运动以及微表情中细微动作的检测难题仍然存在,阻碍了准确的表情定位。本文提出了一种高效的面部表情定位框架。首先,我们提出了一种基于滑动窗口的多时间分辨率光流(SW-MRO)特征,它在紧凑的滑动窗口内计算输入图像序列的多时间分辨率光流。窗口长度经过调整,可以感知完整的微表情,并区分一般的宏表情和微表情。SW-MRO可以有效地揭示细微的动作,同时避免光流被头部运动所主导。其次,我们提出了SpotFormer,一种多尺度时空Transformer,可以同时编码SW-MRO特征的时空关系,以实现准确的帧级别概率估计。在SpotFormer中,我们使用提出的面部局部图池化(FLGP)操作和卷积层来提取多尺度时空特征。通过与几种模型变体的比较,我们展示了SpotFormer架构的有效性。第三,我们将监督对比学习引入SpotFormer,以增强不同类型表情之间的可区分性。在SAMM-LV、CAS(ME)^2和CAS(ME)^3上的大量实验表明,我们的方法优于最先进的模型,尤其是在微表情定位方面。

🔬 方法详解

问题定义:论文旨在解决面部表情定位问题,特别是微表情的精确定位。现有方法容易受到无关面部运动的干扰,并且难以捕捉微表情中细微的动作变化,导致定位准确率不高。

核心思路:论文的核心思路是利用多时间分辨率的光流特征来捕捉不同时间尺度的面部运动信息,并使用Transformer模型来学习这些时空特征之间的关系。通过滑动窗口的方式提取光流,可以有效地减少无关运动的干扰,并突出微表情的细微变化。

技术框架:整体框架包括三个主要部分:1) 基于滑动窗口的多时间分辨率光流(SW-MRO)特征提取模块,用于提取面部运动特征;2) SpotFormer模块,一个多尺度时空Transformer,用于编码SW-MRO特征的时空关系并进行帧级别概率估计;3) 监督对比学习模块,用于增强不同表情之间的可区分性。

关键创新:论文的关键创新在于以下几点:1) 提出了SW-MRO特征,能够有效地捕捉微表情的细微动作,并减少无关运动的干扰;2) 提出了SpotFormer模型,利用多尺度时空Transformer来学习面部表情的时空关系;3) 将监督对比学习引入到面部表情定位任务中,提高了模型对不同表情的区分能力。与现有方法相比,该方法能够更准确地定位面部表情,尤其是在微表情定位方面。

关键设计:SW-MRO特征中,滑动窗口的长度是根据微表情的持续时间进行调整的,以确保能够捕捉到完整的微表情。SpotFormer模型中,使用了面部局部图池化(FLGP)操作和卷积层来提取多尺度时空特征。监督对比学习中,使用了InfoNCE损失函数来最大化相同表情之间的相似性,并最小化不同表情之间的相似性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpotFormer在SAMM-LV、CAS(ME)^2和CAS(ME)^3等数据集上均取得了优于现有技术的效果。尤其是在微表情定位方面,SpotFormer的性能提升更为显著,表明其能够有效地捕捉微表情的细微动作。例如,在CAS(ME)^2数据集上,SpotFormer的UAR指标相比于现有最佳方法提升了超过5%。

🎯 应用场景

该研究成果可应用于心理学研究、人机交互、安全监控等领域。例如,在心理学研究中,可以利用该技术自动分析受试者的面部表情,从而了解其情绪状态。在人机交互中,可以使机器能够理解人类的情绪,从而提供更自然、更友好的交互体验。在安全监控中,可以用于检测潜在的犯罪行为,例如通过识别嫌疑人的微表情来判断其是否在说谎。

📄 摘要(原文)

Facial expression spotting, identifying periods where facial expressions occur in a video, is a significant yet challenging task in facial expression analysis. The issues of irrelevant facial movements and the challenge of detecting subtle motions in micro-expressions remain unresolved, hindering accurate expression spotting. In this paper, we propose an efficient framework for facial expression spotting. First, we propose a Sliding Window-based multi-temporal-resolution Optical flow (SW-MRO) feature, which calculates multi-temporal-resolution optical flow of the input image sequence within compact sliding windows. The window length is tailored to perceive complete micro-expressions and distinguish between general macro- and micro-expressions. SW-MRO can effectively reveal subtle motions while avoiding the optical flow being dominated by head movements. Second, we propose SpotFormer, a multi-scale spatio-temporal Transformer that simultaneously encodes spatio-temporal relationships of the SW-MRO features for accurate frame-level probability estimation. In SpotFormer, we use the proposed Facial Local Graph Pooling (FLGP) operation and convolutional layers to extract multi-scale spatio-temporal features. We show the validity of the architecture of SpotFormer by comparing it with several model variants. Third, we introduce supervised contrastive learning into SpotFormer to enhance the discriminability between different types of expressions. Extensive experiments on SAMM-LV, CAS(ME)^2, and CAS(ME)^3 show that our method outperforms state-of-the-art models, particularly in micro-expression spotting.