Micro-AU CLIP: Fine-Grained Contrastive Learning from Local Independence to Global Dependency for Micro-Expression Action Unit Detection
作者: Jinsheng Wei, Fengzhou Guo, Yante Li, Haoyu Chen, Guanming Lu, Guoying Zhao
分类: cs.CV
发布日期: 2026-03-17
💡 一句话要点
提出Micro-AU CLIP框架,解决微表情动作单元检测中局部独立性和全局依赖性建模问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 微表情分析 动作单元检测 对比学习 局部独立性 全局依赖性 情感识别 计算机视觉
📋 核心要点
- 现有微表情动作单元检测方法忽略了AU的局部性,难以充分感知AU区域。
- Micro-AU CLIP框架通过局部语义独立性建模和全局语义依赖性建模,学习细粒度的AU特征。
- 实验表明,Micro-AU CLIP在微表情动作单元检测任务上取得了state-of-the-art的性能。
📝 摘要(中文)
本文提出了一种新的微表情动作单元(Micro-AU)检测框架Micro-AU CLIP,旨在解决现有方法忽略AU局部性和AU间依赖性的问题。该框架将AU检测过程分解为局部语义独立性建模(LSI)和全局语义依赖性建模(GSD)。在LSI中,设计了Patch Token Attention(PTA),将AU区域内的多个局部特征映射到同一特征空间。在GSD中,提出了全局依赖性注意力(GDA)和全局依赖性损失(GDLoss)来建模不同AU之间的全局依赖关系,从而增强每个AU特征。此外,考虑到CLIP在微语义对齐方面的局限性,设计了一种微AU对比损失(MiAUCL),通过视觉和文本特征的细粒度对齐来学习AU特征。Micro-AU CLIP还可有效应用于无情感标签的ME识别。实验结果表明,Micro-AU CLIP能够充分学习细粒度的微AU特征,并达到state-of-the-art的性能。
🔬 方法详解
问题定义:现有的微表情动作单元(Micro-AU)检测方法通常直接从整个面部图像或视频中学习AU特征,忽略了AU本身具有的局部性特点,即每个AU对应于特定的局部面部肌肉运动。此外,现有方法也较少考虑不同AU之间存在的依赖关系,尤其是在特定情绪状态下,某些AU之间存在内在的关联性。因此,如何有效地建模AU的局部性和AU之间的依赖关系是当前微表情动作单元检测面临的关键问题。
核心思路:本文的核心思路是将AU检测过程分解为两个阶段:局部语义独立性建模(LSI)和全局语义依赖性建模(GSD)。LSI阶段旨在关注AU的局部特征,学习每个AU独立的语义表示。GSD阶段则旨在建模不同AU之间的依赖关系,从而增强每个AU的特征表示。通过这种独立性到依赖性的模式,可以更全面地捕捉AU的特征。
技术框架:Micro-AU CLIP框架主要包含三个模块:Patch Token Attention (PTA)模块,用于局部语义独立性建模;Global Dependency Attention (GDA)模块和Global Dependency Loss (GDLoss),用于全局语义依赖性建模;以及microAU contrastive loss (MiAUCL),用于视觉和文本特征的细粒度对齐。首先,输入面部图像,PTA模块提取AU区域内的局部特征,并将其映射到同一特征空间。然后,GDA模块和GDLoss用于建模不同AU之间的依赖关系。最后,MiAUCL用于对齐视觉和文本特征,进一步提升AU特征的表达能力。
关键创新:该论文的关键创新在于提出了一个同时考虑AU局部独立性和全局依赖性的微表情动作单元检测框架。具体来说,PTA模块能够有效地提取AU区域内的局部特征,GDA模块和GDLoss能够建模不同AU之间的依赖关系,MiAUCL能够实现视觉和文本特征的细粒度对齐。与现有方法相比,该框架能够更全面地捕捉AU的特征,从而提升检测性能。
关键设计:Patch Token Attention (PTA)模块将AU区域划分为多个patch,然后使用attention机制将这些patch的特征聚合起来,得到AU的局部特征表示。Global Dependency Attention (GDA)模块使用attention机制来建模不同AU之间的依赖关系,从而增强每个AU的特征表示。Global Dependency Loss (GDLoss)则通过约束不同AU之间的特征表示,来进一步加强AU之间的依赖关系。microAU contrastive loss (MiAUCL)使用对比学习的方法,将视觉特征和文本特征对齐,从而提升AU特征的表达能力。具体损失函数的设计和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Micro-AU CLIP在微表情动作单元检测任务上取得了state-of-the-art的性能。相较于现有方法,该框架能够更准确地检测AU,并能够更好地捕捉AU之间的依赖关系。具体的性能提升数据需要在论文中查找,但摘要中明确指出达到了当前最优水平。
🎯 应用场景
该研究成果可应用于情感识别、心理健康评估、人机交互等领域。通过准确检测微表情动作单元,可以更深入地了解人类的真实情感状态,从而为相关应用提供更可靠的依据。例如,在心理咨询中,可以辅助咨询师识别患者的隐藏情绪;在人机交互中,可以使机器更好地理解人类的情感,从而提供更自然、更人性化的交互体验。
📄 摘要(原文)
Micro-expression (ME) action units (Micro-AUs) provide objective clues for fine-grained genuine emotion analysis. Most existing Micro-AU detection methods learn AU features from the whole facial image/video, which conflicts with the inherent locality of AU, resulting in insufficient perception of AU regions. In fact, each AU independently corresponds to specific localized facial muscle movements (local independence), while there is an inherent dependency between some AUs under specific emotional states (global dependency). Thus, this paper explores the effectiveness of the independence-to-dependency pattern and proposes a novel micro-AU detection framework, micro-AU CLIP, that uniquely decomposes the AU detection process into local semantic independence modeling (LSI) and global semantic dependency (GSD) modeling. In LSI, Patch Token Attention (PTA) is designed, mapping several local features within the AU region to the same feature space; In GSD, Global Dependency Attention (GDA) and Global Dependency Loss (GDLoss) are presented to model the global dependency relationships between different AUs, thereby enhancing each AU feature. Furthermore, considering CLIP's native limitations in micro-semantic alignment, a microAU contrastive loss (MiAUCL) is designed to learn AU features by a fine-grained alignment of visual and text features. Also, Micro-AU CLIP is effectively applied to ME recognition in an emotion-label-free way. The experimental results demonstrate that Micro-AU CLIP can fully learn fine-grained micro-AU features, achieving state-of-the-art performance.