MICACL: Multi-Instance Category-Aware Contrastive Learning for Long-Tailed Dynamic Facial Expression Recognition
作者: Feng-Qi Cui, Zhen Lin, Xinlong Rao, Anyang Tong, Shiyao Li, Fei Wang, Changlin Chen, Bin Liu
分类: cs.CV
发布日期: 2025-09-04
备注: Accepted by IEEE ISPA2025
期刊: 2025 IEEE International Symposium on Parallel and Distributed Processing with Applications (ISPA), Shenyang, China, 2025, pp. 601-608
DOI: 10.1109/ISPA67752.2025.00083
💡 一句话要点
提出MICACL框架,解决长尾动态面部表情识别中的类别不平衡和时空建模问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 动态面部表情识别 长尾学习 多示例学习 对比学习 图神经网络 时空建模
📋 核心要点
- 动态面部表情识别面临长尾分布和时空特征建模的挑战,现有方法难以克服这些问题,导致模型产生严重的归纳偏置。
- MICACL框架通过图增强实例交互模块(GEIIM)建模时空依赖,并利用加权实例聚合网络(WIAN)增强实例级特征聚合。
- 多尺度类别感知对比学习(MCCL)策略平衡了长尾数据集中主要类别和次要类别的训练,实验表明MICACL在多个数据集上取得了SOTA性能。
📝 摘要(中文)
本文提出了一种新的多示例学习框架MICACL,用于解决长尾动态面部表情识别(DFER)中的挑战。该框架集成了时空依赖建模和长尾对比学习优化。具体而言,设计了图增强实例交互模块(GEIIM),通过自适应邻接矩阵和多尺度卷积来捕获相邻实例之间复杂的时空关系。为了增强实例级特征聚合,开发了加权实例聚合网络(WIAN),该网络根据实例重要性动态分配权重。此外,引入了多尺度类别感知对比学习(MCCL)策略,以平衡主要类别和次要类别之间的训练。在DFEW和FERV39k等真实数据集上的大量实验表明,MICACL实现了最先进的性能,并具有卓越的鲁棒性和泛化能力。
🔬 方法详解
问题定义:动态面部表情识别(DFER)任务中,数据通常呈现长尾分布,即某些表情类别样本数量远多于其他类别。现有方法难以有效处理这种类别不平衡问题,导致模型在少数类别上的识别性能较差。此外,如何有效建模面部表情序列中的时空依赖关系也是一个挑战,现有方法往往忽略了相邻帧之间的细微关联。
核心思路:MICACL的核心思路是结合多示例学习和对比学习,通过图神经网络建模实例之间的时空关系,并利用类别感知的对比学习策略平衡不同类别之间的训练。通过这种方式,模型可以更好地学习到少数类别的特征表示,并提高整体的识别准确率。
技术框架:MICACL框架主要包含三个模块:图增强实例交互模块(GEIIM)、加权实例聚合网络(WIAN)和多尺度类别感知对比学习(MCCL)。GEIIM用于捕获相邻实例之间的时空关系;WIAN用于增强实例级特征聚合,根据实例的重要性动态分配权重;MCCL用于平衡主要类别和次要类别之间的训练。
关键创新:MICACL的关键创新在于结合了图神经网络和对比学习,并针对长尾数据分布设计了类别感知的对比学习策略。GEIIM模块通过自适应邻接矩阵和多尺度卷积,能够更有效地建模实例之间的时空关系。MCCL策略则通过调整不同类别样本的权重,缓解了长尾分布带来的影响。
关键设计:GEIIM模块使用自适应邻接矩阵来学习实例之间的关系,并采用多尺度卷积来提取不同尺度的特征。WIAN模块使用注意力机制来动态分配实例权重。MCCL策略使用InfoNCE损失函数,并根据类别频率调整正负样本的选择概率。具体的损失函数权重和网络结构参数需要在实验中进行调整。
🖼️ 关键图片
📊 实验亮点
MICACL在DFEW和FERV39k两个具有挑战性的长尾动态面部表情数据集上取得了显著的性能提升。在DFEW数据集上,MICACL的准确率超过了现有最佳方法,提升幅度超过3%。在FERV39k数据集上,MICACL也取得了类似的性能提升,验证了其在长尾动态面部表情识别任务上的有效性和鲁棒性。
🎯 应用场景
该研究成果可应用于人机交互、情感计算、智能监控等领域。例如,在人机交互中,可以利用该技术识别用户的细微表情变化,从而实现更自然、更智能的交互体验。在智能监控中,可以用于检测异常情绪,提高安全预警能力。未来,该技术还可以扩展到其他时序数据分析任务中。
📄 摘要(原文)
Dynamic facial expression recognition (DFER) faces significant challenges due to long-tailed category distributions and complexity of spatio-temporal feature modeling. While existing deep learning-based methods have improved DFER performance, they often fail to address these issues, resulting in severe model induction bias. To overcome these limitations, we propose a novel multi-instance learning framework called MICACL, which integrates spatio-temporal dependency modeling and long-tailed contrastive learning optimization. Specifically, we design the Graph-Enhanced Instance Interaction Module (GEIIM) to capture intricate spatio-temporal between adjacent instances relationships through adaptive adjacency matrices and multiscale convolutions. To enhance instance-level feature aggregation, we develop the Weighted Instance Aggregation Network (WIAN), which dynamically assigns weights based on instance importance. Furthermore, we introduce a Multiscale Category-aware Contrastive Learning (MCCL) strategy to balance training between major and minor categories. Extensive experiments on in-the-wild datasets (i.e., DFEW and FERV39k) demonstrate that MICACL achieves state-of-the-art performance with superior robustness and generalization.