EPIR: An Efficient Patch Tokenization, Integration and Representation Framework for Micro-expression Recognition

📄 arXiv: 2604.08106v1 📥 PDF

作者: Junbo Wang, Liangyu Fu, Yuke Li, Yining Zhu, Xuecheng Wu, Kun Hu

分类: cs.CV

发布日期: 2026-04-09


💡 一句话要点

提出EPIR框架,通过高效的token化、集成和表征学习提升微表情识别性能并降低计算复杂度。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 微表情识别 Transformer token化 注意力机制 特征表示学习 计算效率 深度学习

📋 核心要点

  1. 现有基于Transformer的微表情识别方法计算复杂度高,且在小规模数据集上难以有效学习。
  2. 提出EPIR框架,包含双范数移位token化、token集成和判别性token提取等模块,旨在降低计算成本并提升表征能力。
  3. 实验结果表明,EPIR在多个数据集上显著优于现有方法,例如在CAS(ME)$^3$数据集上UF1提升9.6%。

📝 摘要(中文)

微表情识别旨在捕捉个体在特定时刻的真实情感。尽管基于深度学习,特别是Transformer的方法,已经取得了显著成果,但由于多头自注意力机制中token数量庞大,这些方法计算复杂度较高。此外,现有的微表情数据集规模较小,使得基于Transformer的模型难以学习有效的微表情表征。因此,本文提出了一种新的高效Patch token化、集成和表征框架(EPIR),该框架能够在高识别性能和低计算复杂度之间取得平衡。具体而言,首先提出了双范数移位token化(DNSPT)模块,以学习面部区域相邻像素之间的空间关系,该模块通过精细的空间变换和双范数投影实现。然后,提出了token集成模块,以集成多个级联Transformer块中的部分token,从而在不损失信息的情况下减少token数量。此外,设计了一种判别性token提取器,该提取器首先改进Transformer块中的注意力机制,以减少注意力计算对自token的不必要关注,并使用动态token选择模块(DTSM)来选择关键token,从而捕获更具判别性的微表情表征。在四个流行的公共数据集(即CASME II、SAMM、SMIC和CAS(ME)3)上进行了大量实验。实验结果表明,该方法相对于最先进的方法取得了显著的性能提升,例如在CAS(ME)$^3$数据集上,UF1指标提高了9.6%,在SMIC数据集上,UAR指标提高了4.58%。

🔬 方法详解

问题定义:微表情识别旨在捕捉细微的面部表情变化,但现有基于Transformer的方法面临两个主要痛点:一是计算复杂度高,因为Transformer需要处理大量的token;二是微表情数据集规模小,导致模型难以充分学习有效的微表情表征。这些问题限制了Transformer在微表情识别中的应用。

核心思路:EPIR框架的核心思路是通过高效的token化、集成和表征学习,在降低计算复杂度的同时,提升微表情识别的性能。具体来说,通过双范数移位token化(DNSPT)模块来学习局部空间关系,通过token集成模块来减少token数量,并通过判别性token提取器来选择关键token,从而实现高效且有效的微表情表征。

技术框架:EPIR框架主要包含三个模块:1) 双范数移位token化(DNSPT)模块:用于学习面部区域相邻像素之间的空间关系。2) token集成模块:用于集成多个级联Transformer块中的部分token,从而减少token数量。3) 判别性token提取器:包含改进的Transformer块和动态token选择模块(DTSM),用于选择关键token。

关键创新:EPIR框架的关键创新在于其高效的token处理机制。DNSPT模块通过精细的空间变换和双范数投影,能够有效地学习局部空间关系。token集成模块能够在不损失信息的情况下减少token数量,从而降低计算复杂度。判别性token提取器能够选择关键token,从而提升模型的判别能力。

关键设计:DNSPT模块使用双范数来约束空间变换,以保证变换的稳定性。token集成模块采用级联Transformer块,并逐步减少token数量。判别性token提取器中的DTSM模块使用动态阈值来选择关键token。损失函数方面,可能采用了交叉熵损失或其变体,以优化模型的分类性能。具体的网络结构细节,例如Transformer块的数量和维度,以及DTSM模块的参数设置,需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EPIR框架在四个公开数据集上取得了显著的性能提升。在CAS(ME)$^3$数据集上,UF1指标提高了9.6%;在SMIC数据集上,UAR指标提高了4.58%。这些结果表明,EPIR框架能够在高识别性能和低计算复杂度之间取得良好的平衡,优于现有的微表情识别方法。

🎯 应用场景

该研究成果可应用于心理学研究、安全监控、人机交互等领域。例如,在心理学研究中,可以辅助分析个体的真实情绪状态;在安全监控中,可以用于检测潜在的犯罪行为;在人机交互中,可以提升机器对人类情感的理解能力,从而实现更自然、更智能的交互。

📄 摘要(原文)

Micro-expression recognition can obtain the real emotion of the individual at the current moment. Although deep learning-based methods, especially Transformer-based methods, have achieved impressive results, these methods have high computational complexity due to the large number of tokens in the multi-head self-attention. In addition, the existing micro-expression datasets are small-scale, which makes it difficult for Transformer-based models to learn effective micro-expression representations. Therefore, we propose a novel Efficient Patch tokenization, Integration and Representation framework (EPIR), which can balance high recognition performance and low computational complexity. Specifically, we first propose a dual norm shifted tokenization (DNSPT) module to learn the spatial relationship between neighboring pixels in the face region, which is implemented by a refined spatial transformation and dual norm projection. Then, we propose a token integration module to integrate partial tokens among multiple cascaded Transformer blocks, thereby reducing the number of tokens without information loss. Furthermore, we design a discriminative token extractor, which first improves the attention in the Transformer block to reduce the unnecessary focus of the attention calculation on self-tokens, and uses the dynamic token selection module (DTSM) to select key tokens, thereby capturing more discriminative micro-expression representations. We conduct extensive experiments on four popular public datasets (i.e., CASME II, SAMM, SMIC, and CAS(ME)3. The experimental results show that our method achieves significant performance gains over the state-of-the-art methods, such as 9.6% improvement on the CAS(ME)$^3$ dataset in terms of UF1 and 4.58% improvement on the SMIC dataset in terms of UAR metric.