Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

📄 arXiv: 2602.23950v1 📥 PDF

作者: Mingjie Zhang, Bo Li, Wanting Liu, Hongyan Cui, Yue Li, Qingwen Li, Hong Li, Ge Gao

分类: cs.CV, cs.AI

发布日期: 2026-02-27

备注: 4 pages, 4 figures,conference paper


💡 一句话要点

提出双分支特征提取融合网络,提升微表情识别精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 微表情识别 双分支网络 残差网络 Inception网络 注意力机制 特征融合 深度学习

📋 核心要点

  1. 现有光流法在微表情识别中面临挑战,因为微表情短暂且细微,难以捕捉。
  2. 提出双分支网络,结合残差网络和Inception网络,并引入并行注意力机制,增强特征表达。
  3. 在CASME II数据集上,该方法取得了74.67%的准确率,显著优于其他基线方法。

📝 摘要(中文)

微表情具有短暂性和细微性,对现有的基于光流的识别方法提出了挑战。为了解决这个问题,本文提出了一种集成了并行注意力的双分支微表情特征提取网络。主要贡献包括:1) 设计了一个残差网络,以缓解梯度消失和网络退化;2) 构建了一个Inception网络,以增强模型表示并抑制来自无关区域的干扰;3) 开发了一个自适应特征融合模块,以整合双分支特征。在CASME II数据集上的实验表明,该方法达到了74.67%的准确率,优于LBP-TOP(11.26%)和MSMMT(3.36%)等对比方法。

🔬 方法详解

问题定义:微表情识别旨在从面部视频中识别出细微、短暂的情感表达。现有方法,特别是基于光流的方法,在处理微表情时面临挑战,因为微表情的幅度小、持续时间短,容易受到噪声和无关区域的干扰。梯度消失和网络退化也是深层网络训练中常见的问题。

核心思路:论文的核心思路是利用双分支网络分别提取微表情的不同特征,并进行融合。残差网络用于缓解梯度消失,Inception网络用于增强特征表达和抑制无关区域的干扰。并行注意力机制用于关注重要的特征区域。自适应特征融合模块用于有效地整合两个分支提取的特征。

技术框架:该方法主要包含以下几个模块:1) 残差网络分支:用于提取全局特征,缓解梯度消失问题;2) Inception网络分支:用于提取局部特征,增强模型对微表情细微变化的感知能力;3) 并行注意力模块:用于增强对重要特征区域的关注;4) 自适应特征融合模块:用于将两个分支提取的特征进行融合,得到最终的特征表示;5) 分类器:用于根据最终的特征表示进行微表情分类。

关键创新:该方法的主要创新点在于:1) 提出了双分支网络结构,能够同时提取全局和局部特征,更全面地捕捉微表情的特征;2) 引入了并行注意力机制,能够自适应地关注重要的特征区域,提高模型的鲁棒性;3) 设计了自适应特征融合模块,能够有效地整合两个分支提取的特征,提高模型的识别精度。

关键设计:残差网络分支采用ResNet结构,Inception网络分支采用Inception-v3结构。并行注意力模块包含空间注意力和通道注意力。自适应特征融合模块使用可学习的权重来融合两个分支的特征。损失函数采用交叉熵损失函数。

📊 实验亮点

在CASME II数据集上,该方法取得了74.67%的准确率,相比于LBP-TOP方法提升了11.26%,相比于MSMMT方法提升了3.36%。实验结果表明,该方法能够有效地提高微表情识别的精度,具有较强的竞争力。

🎯 应用场景

该研究成果可应用于心理学研究、安全监控、人机交互等领域。例如,在心理学研究中,可以帮助研究人员更准确地分析个体的情感状态;在安全监控中,可以用于检测潜在的犯罪行为;在人机交互中,可以提高机器对人类情感的理解能力,从而实现更自然、更智能的交互。

📄 摘要(原文)

Micro-expressions, characterized by transience and subtlety, pose challenges to existing optical flow-based recognition methods. To address this, this paper proposes a dual-branch micro-expression feature extraction network integrated with parallel attention. Key contributions include: 1) a residual network designed to alleviate gradient anishing and network degradation; 2) an Inception network constructed to enhance model representation and suppress interference from irrelevant regions; 3) an adaptive feature fusion module developed to integrate dual-branch features. Experiments on the CASME II dataset demonstrate that the proposed method achieves 74.67% accuracy, outperforming LBP-TOP (by 11.26%), MSMMT (by 3.36%), and other comparative methods.