Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors
作者: Kejun Liu, Yuanyuan Liu, Lin Wei, Chang Tang, Yibing Zhan, Zijing Chen, Zhe Chen
分类: cs.CV, cs.AI
发布日期: 2025-12-18
备注: Accepted by TMM
🔗 代码/项目: GITHUB
💡 一句话要点
提出EMERT模型和EMER数据集,通过眼部行为弥合面部表情识别和情感识别之间的差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感识别 多模态学习 眼部行为 面部表情识别 Transformer 对抗学习 数据集 人机交互
📋 核心要点
- 现有情感识别主要依赖面部表情,但面部表情常被用作社交工具,无法真实反映内在情感。
- 论文提出EMERT模型,利用模态对抗特征解耦和多任务Transformer,将眼部行为作为面部表情的补充。
- 实验结果表明,EMERT显著优于其他多模态方法,验证了眼部行为在情感识别中的重要性。
📝 摘要(中文)
情感识别(ER)是从感知数据中分析和识别人类情感的过程。目前,该领域严重依赖于面部表情识别(FER),因为视觉通道传递丰富的情感线索。然而,面部表情通常被用作社交工具,而不是真实内在情感的表现。为了理解和弥合FER和ER之间的差距,我们引入了眼部行为作为一个重要的情感线索,并构建了一个眼部行为辅助的多模态情感识别(EMER)数据集。为了收集具有真实情感的数据,我们利用刺激材料进行自发情感诱导,在此过程中,非侵入性的眼部行为数据,如眼动序列和眼部注视图,与面部表情视频一起被捕获。为了更好地说明ER和FER之间的差距,我们分别对多模态ER和FER进行了多视角情感标注。此外,基于新的数据集,我们设计了一个简单而有效的眼部行为辅助MER Transformer (EMERT),通过弥合情感差距来增强ER。EMERT利用模态对抗特征解耦和一个多任务Transformer来建模眼部行为,作为面部表情的有力补充。在实验中,我们为EMER数据集的各种综合评估引入了七个多模态基准协议。结果表明,EMERT的性能大大优于其他最先进的多模态方法,揭示了建模眼部行为对于鲁棒ER的重要性。总而言之,我们对眼部行为在ER中的重要性进行了全面的分析,从而推进了解决FER和ER之间差距的研究,以获得更强大的ER性能。我们的EMER数据集和训练好的EMERT模型将在https://github.com/kejun1/EMER上公开。
🔬 方法详解
问题定义:现有情感识别方法过度依赖面部表情,忽略了面部表情可能存在的伪装性,导致情感识别的准确性受到影响。真实情感往往蕴含在细微的眼部行为中,如何有效利用眼部行为信息来提升情感识别的鲁棒性是一个关键问题。
核心思路:论文的核心思路是将眼部行为作为情感识别的重要补充信息,通过建模眼部行为与面部表情之间的关系,弥合面部表情识别(FER)和情感识别(ER)之间的差距。通过引入眼部行为,模型可以更好地捕捉到真实的情感状态,从而提高情感识别的准确性和鲁棒性。
技术框架:EMERT模型主要包含以下几个模块:1) 特征提取模块:分别提取面部表情视频和眼部行为数据的特征。2) 模态对抗特征解耦模块:用于解耦面部表情特征中的社交伪装成分,提取更纯粹的情感特征。3) 多任务Transformer模块:用于融合面部表情和眼部行为特征,并同时进行情感识别和面部表情识别两个任务。
关键创新:论文的关键创新在于:1) 提出了一个包含眼部行为信息的多模态情感识别数据集EMER。2) 设计了模态对抗特征解耦模块,用于去除面部表情中的伪装成分。3) 提出了多任务Transformer结构,可以有效地融合面部表情和眼部行为特征,并同时进行情感识别和面部表情识别。
关键设计:在模态对抗特征解耦模块中,使用了对抗学习的方法,通过一个判别器来区分面部表情特征中的真实情感成分和伪装成分,并训练一个生成器来生成更纯粹的情感特征。在多任务Transformer模块中,使用了共享的Transformer编码器来提取面部表情和眼部行为的共同特征,并使用两个独立的Transformer解码器分别进行情感识别和面部表情识别。
🖼️ 关键图片
📊 实验亮点
论文构建了包含眼部行为信息的EMER数据集,并提出了EMERT模型。实验结果表明,EMERT在EMER数据集上取得了显著的性能提升,大幅优于其他state-of-the-art的多模态方法,验证了眼部行为在情感识别中的重要作用。具体性能数据需要在论文中查找。
🎯 应用场景
该研究成果可应用于人机交互、心理健康评估、智能客服等领域。通过结合面部表情和眼部行为进行情感识别,可以更准确地理解用户的情感状态,从而提供更个性化、更贴心的服务。例如,在心理健康评估中,可以利用该技术来辅助医生诊断患者的情感障碍。
📄 摘要(原文)
Emotion Recognition (ER) is the process of analyzing and identifying human emotions from sensing data. Currently, the field heavily relies on facial expression recognition (FER) because visual channel conveys rich emotional cues. However, facial expressions are often used as social tools rather than manifestations of genuine inner emotions. To understand and bridge this gap between FER and ER, we introduce eye behaviors as an important emotional cue and construct an Eye-behavior-aided Multimodal Emotion Recognition (EMER) dataset. To collect data with genuine emotions, spontaneous emotion induction paradigm is exploited with stimulus material, during which non-invasive eye behavior data, like eye movement sequences and eye fixation maps, is captured together with facial expression videos. To better illustrate the gap between ER and FER, multi-view emotion labels for mutimodal ER and FER are separately annotated. Furthermore, based on the new dataset, we design a simple yet effective Eye-behavior-aided MER Transformer (EMERT) that enhances ER by bridging the emotion gap. EMERT leverages modality-adversarial feature decoupling and a multitask Transformer to model eye behaviors as a strong complement to facial expressions. In the experiment, we introduce seven multimodal benchmark protocols for a variety of comprehensive evaluations of the EMER dataset. The results show that the EMERT outperforms other state-of-the-art multimodal methods by a great margin, revealing the importance of modeling eye behaviors for robust ER. To sum up, we provide a comprehensive analysis of the importance of eye behaviors in ER, advancing the study on addressing the gap between FER and ER for more robust ER performance. Our EMER dataset and the trained EMERT models will be publicly available at https://github.com/kejun1/EMER.