MEDN: Motion-Emotion Feature Decoupling Network for Micro-Expression Recognition
作者: Chenxing Hu, Kun Xie, Qiguang Miao, Ruyi Liu, Quan Wang, Zongkai Yang
分类: cs.CV
发布日期: 2026-04-20
备注: 14 pages, 8 figures, 7 tabels
💡 一句话要点
提出MEDN:一种用于微表情识别的运动-情感特征解耦网络
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 微表情识别 运动情感解耦 动作单元检测 稀疏Transformer 特征融合
📋 核心要点
- 现有微表情识别方法过度依赖显式运动信息,忽略了隐式情感信息,导致难以区分具有相似运动模式但情感相反的微表情。
- MEDN通过双分支网络分别提取运动和情感特征,并使用AU检测和正交损失来解耦运动和情感特征。
- 实验结果表明,MEDN在三个基准数据集上取得了优越的识别性能,验证了其有效性和泛化能力。
📝 摘要(中文)
与宏表情不同,微表情在情感和动作单元(AUs)之间没有严格一致的映射规则。因此,一些微表情可能共享相同的AUs,但代表完全相反的情感类别,导致它们在视觉上非常相似。现有的微表情识别(MER)方法主要依赖于显式的面部运动线索(例如,光流、帧差异、AU特征),而忽略了隐式的情感信息。为了解决这个问题,本文提出了一种用于MER的运动-情感特征解耦网络(MEDN)。我们设计了一个双分支框架来分别提取运动和情感特征。在运动分支中,AU检测任务将特征限制在显式的运动域,并采用正交损失来减少运动-情感特征耦合。对于隐式情感建模,我们提出了一种稀疏情感视觉Transformer(SEVit),它通过多尺度稀疏率来稀疏化空间tokens,以突出局部时间变化。进一步开发了一个协同融合模块(CoFM),以自适应地融合解耦的运动和情感特征。在三个基准数据集上的大量实验验证了MEDN能够有效地解耦运动和情感特征,并实现了卓越的识别性能,为提高识别准确率和泛化能力提供了一个新的视角。
🔬 方法详解
问题定义:微表情识别任务面临的挑战是,微表情的情感表达与面部动作单元(AUs)之间并非一一对应,导致具有相似AUs的微表情可能表达相反的情感。现有方法主要依赖于显式的运动特征(如光流、帧差等),忽略了隐式的情感信息,难以有效区分这些视觉相似但情感不同的微表情。
核心思路:MEDN的核心思路是将运动特征和情感特征进行解耦,分别进行建模,然后自适应地融合。通过显式地约束运动分支学习AU相关的特征,并使用正交损失减少运动和情感特征之间的耦合,从而使情感分支能够更好地捕捉隐式的情感信息。
技术框架:MEDN采用双分支框架,包含运动分支和情感分支。运动分支通过AU检测任务提取显式的运动特征,并使用正交损失与情感分支解耦。情感分支使用稀疏情感视觉Transformer(SEVit)提取隐式的情感特征。最后,通过协同融合模块(CoFM)自适应地融合两个分支的特征,进行微表情识别。
关键创新:MEDN的关键创新在于运动-情感特征解耦的思想,以及稀疏情感视觉Transformer(SEVit)的设计。通过解耦运动和情感特征,可以更好地利用隐式的情感信息,提高微表情识别的准确率。SEVit通过多尺度稀疏化空间tokens,突出局部时间变化,更有效地捕捉情感信息。
关键设计:运动分支使用AU检测任务作为辅助任务,损失函数包括AU检测损失和正交损失。正交损失用于约束运动和情感特征之间的相关性。情感分支的SEVit使用多尺度稀疏率,以不同程度地稀疏化空间tokens。协同融合模块(CoFM)使用注意力机制自适应地融合运动和情感特征。
🖼️ 关键图片
📊 实验亮点
MEDN在CASME II、SAMM和SMIC-E三个基准数据集上进行了广泛的实验,结果表明MEDN能够有效地解耦运动和情感特征,并取得了显著的性能提升。例如,在CASME II数据集上,MEDN的UAR(Unweighted Average Recall)相比于现有最佳方法提升了超过3%。实验结果验证了MEDN的有效性和泛化能力。
🎯 应用场景
MEDN在微表情识别领域具有广泛的应用前景,例如在心理学研究中可以辅助分析个体的情绪状态,在安全领域可以用于检测潜在的欺骗行为,在人机交互领域可以提升机器的情感理解能力。该研究有助于更准确地识别和理解人类的真实情感,从而促进相关领域的发展。
📄 摘要(原文)
Unlike macro-expression, micro-expression does not follow a strictly consistent mapping rule between emotions and Action Units (AUs). As a result, some micro-expressions share identical AUs yet represent completely opposite emotional categories, making them highly visually similar. Existing microexpression recognition (MER) methods mostly rely on explicit facial motion cues (e.g., optical flow, frame differences, AU features) while ignoring implicit emotion information. To tackle this issue, this paper presents a Motion Emotion Feature Decoupling Network (MEDN) for MER. We design a dual-branch framework to separately extract motion and emotion features. In the motion branch, an AU-detection task restricts features to the explicit motion domain, and orthogonal loss is adopted to reduce motion emotion feature coupling. For implicit emotion modeling, we propose a Sparse Emotion Vision Transformer (SEVit) that sparsifies spatial tokens to highlight local temporal variations with multi-scale sparsity rates. A Collaborative Fusion Module (CoFM) is further developed to fuse disentangled motion and emotion features adaptively. Extensive experiments on three benchmark datasets validate that MEDN effectively decouples motion and emotion features and achieves superior recognition performance, offering a new perspective for enhancing recognition accuracy and generalization.