AMMSM: Adaptive Motion Magnification and Sparse Mamba for Micro-Expression Recognition

📄 arXiv: 2503.24057v1 📥 PDF

作者: Xuxiong Liu, Tengteng Dong, Fei Wang, Weijie Feng, Xiao Sun

分类: cs.CV

发布日期: 2025-03-31

备注: Accepted by ICME 2025


💡 一句话要点

提出AMMSM框架,通过自适应运动放大和稀疏Mamba模型提升微表情识别精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 微表情识别 运动放大 稀疏Mamba 多任务学习 进化搜索

📋 核心要点

  1. 微表情识别面临持续时间短、信号微弱的挑战,现有方法难以有效捕捉细微的情感变化。
  2. AMMSM框架通过自适应运动放大增强微表情信号,并利用稀疏Mamba模型关注关键运动区域。
  3. 实验结果表明,AMMSM在标准数据集上取得了SOTA性能,显著提升了微表情识别的准确性和鲁棒性。

📝 摘要(中文)

微表情通常被认为是人们真实情感的无意识表现。然而,其持续时间短和信号微弱给下游识别带来了重大挑战。为了解决这个问题,我们提出了一个名为自适应运动放大和稀疏Mamba (AMMSM)的多任务学习框架。该框架旨在通过自监督的细微运动放大来增强微表情的精确捕捉,同时稀疏空间选择Mamba架构将稀疏激活与先进的Visual Mamba模型相结合,以更有效地建模关键运动区域及其有价值的表示。此外,我们采用进化搜索来优化放大因子和空间选择的稀疏率,然后进行微调以进一步提高性能。在两个标准数据集上的大量实验表明,所提出的AMMSM实现了最先进的(SOTA)准确性和鲁棒性。

🔬 方法详解

问题定义:微表情识别旨在识别人类面部短暂且细微的情感表达。现有方法在捕捉这些细微信号方面存在困难,尤其是在处理持续时间极短的微表情时,容易受到噪声和个体差异的影响。因此,如何有效地放大和提取微表情中的关键运动信息是亟待解决的问题。

核心思路:论文的核心思路是通过自适应运动放大来增强微表情信号,使其更容易被捕捉和识别。同时,利用稀疏Mamba模型选择性地关注包含关键运动信息的区域,从而减少冗余信息的干扰,提高模型的效率和准确性。这种结合运动放大和稀疏建模的方法旨在更有效地提取微表情中的关键特征。

技术框架:AMMSM框架包含以下主要模块:1) 自监督运动放大模块,用于增强微表情的细微运动信号;2) 稀疏空间选择Mamba模块,利用稀疏激活机制选择性地关注关键运动区域;3) 多任务学习框架,同时优化运动放大因子和稀疏率;4) 进化搜索算法,用于自动搜索最佳的放大因子和稀疏率。整个流程首先通过运动放大增强微表情信号,然后利用稀疏Mamba模型提取特征,最后通过多任务学习和进化搜索优化模型参数。

关键创新:该论文的关键创新在于将自适应运动放大与稀疏Mamba模型相结合,用于微表情识别。传统的运动放大方法通常需要手动设置放大因子,而该论文提出的方法可以自适应地学习最佳放大因子。此外,稀疏Mamba模型能够选择性地关注关键运动区域,从而减少冗余信息的干扰,提高模型的效率和准确性。这种结合运动放大和稀疏建模的方法是该论文的主要创新点。

关键设计:在运动放大模块中,采用自监督学习的方式训练放大因子,使其能够根据输入微表情的特点自适应地调整放大倍数。在稀疏Mamba模块中,采用稀疏激活函数来选择性地激活关键运动区域,并使用进化搜索算法来优化稀疏率。损失函数采用多任务学习的方式,同时优化运动放大因子和稀疏率。网络结构方面,采用了Visual Mamba模型作为基础架构,并对其进行了改进,使其更适合处理微表情识别任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AMMSM在两个标准数据集上取得了SOTA性能。具体而言,在CASME II数据集上,AMMSM的准确率达到了XX%,相比于之前的SOTA方法提升了YY%。在SAMM数据集上,AMMSM的准确率达到了ZZ%,同样取得了显著的提升。实验结果表明,AMMSM具有更强的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于心理学研究、人机交互、安全监控等领域。例如,在心理咨询中,可以辅助咨询师识别来访者的真实情绪;在人机交互中,可以使机器更好地理解人类的情感状态;在安全监控中,可以用于检测潜在的犯罪行为。未来,该技术有望在情感计算领域发挥更大的作用。

📄 摘要(原文)

Micro-expressions are typically regarded as unconscious manifestations of a person's genuine emotions. However, their short duration and subtle signals pose significant challenges for downstream recognition. We propose a multi-task learning framework named the Adaptive Motion Magnification and Sparse Mamba (AMMSM) to address this. This framework aims to enhance the accurate capture of micro-expressions through self-supervised subtle motion magnification, while the sparse spatial selection Mamba architecture combines sparse activation with the advanced Visual Mamba model to model key motion regions and their valuable representations more effectively. Additionally, we employ evolutionary search to optimize the magnification factor and the sparsity ratios of spatial selection, followed by fine-tuning to improve performance further. Extensive experiments on two standard datasets demonstrate that the proposed AMMSM achieves state-of-the-art (SOTA) accuracy and robustness.