Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer

📄 arXiv: 2405.19100v3 📥 PDF

作者: Zengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras

分类: cs.CV

发布日期: 2024-05-29 (更新: 2024-11-26)

备注: Accepted at WACV 2025 (Camera-Ready Version)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Exp-CLIP,利用LLM知识迁移增强零样本面部表情识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 面部表情识别 大型语言模型 知识迁移 视觉-语言模型

📋 核心要点

  1. 现有FER模型依赖大量标注数据,泛化性差,难以处理真实场景中未见过的表情。
  2. Exp-CLIP利用LLM的知识,通过投影头将视觉特征映射到任务相关的语义空间,实现知识迁移。
  3. 实验表明,Exp-CLIP在多个FER数据集上显著优于CLIP等模型,提升了零样本识别性能。

📝 摘要(中文)

当前的面部表情识别(FER)模型通常以监督学习方式设计,因此受到缺乏高质量标注的大规模面部表情图像的限制。这导致这些模型泛化能力不足,在推理中对未见过的图像表现不佳。基于视觉-语言的零样本模型展示了解决此类挑战的潜力。然而,这些模型缺乏特定于任务的知识,因此没有针对识别面部表情的细微差别进行优化。为了弥合这一差距,本文提出了一种新方法Exp-CLIP,通过从大型语言模型(LLM)迁移任务知识来增强零样本FER。具体来说,基于预训练的视觉-语言编码器,我们引入了一个投影头,旨在将初始联合视觉-语言空间映射到捕获面部动作表示的空间。为了训练这个投影头以进行后续的零样本预测,我们提出将投影的视觉表示与来自LLM编码器的特定于任务的语义含义对齐,并采用基于文本指令的策略来定制LLM知识。给定未标记的面部数据和投影头的有效训练,Exp-CLIP在七个真实场景的FER数据集上实现了优于CLIP模型和其他几个大型视觉-语言模型(LVLM)的零样本结果。代码和预训练模型可在https://github.com/zengqunzhao/Exp-CLIP获取。

🔬 方法详解

问题定义:现有的面部表情识别模型严重依赖于大规模标注数据集进行训练,这限制了它们在真实场景中的泛化能力。当模型遇到未见过的表情或在不同光照、姿态等条件下的人脸时,性能会显著下降。因此,如何在缺乏标注数据的情况下,提升面部表情识别模型的泛化能力是一个关键问题。

核心思路:Exp-CLIP的核心思路是利用大型语言模型(LLM)中蕴含的丰富知识,将其迁移到面部表情识别任务中。通过将视觉特征与LLM提供的语义信息对齐,模型可以学习到更具泛化性的面部表情表示,从而在零样本场景下也能取得良好的识别效果。

技术框架:Exp-CLIP的整体框架包括以下几个主要模块:1) 预训练的视觉-语言编码器(如CLIP);2) 一个可训练的投影头,用于将视觉特征映射到任务相关的语义空间;3) 大型语言模型(LLM),用于提供面部表情的语义信息。训练过程主要包括:首先,利用LLM生成关于面部表情的文本描述;然后,通过投影头将视觉特征映射到与这些文本描述对齐的空间;最后,利用对比学习等方法,优化投影头的参数,使得视觉特征能够更好地表达面部表情的语义信息。

关键创新:Exp-CLIP的关键创新在于利用LLM的知识来增强零样本面部表情识别。与传统的零样本学习方法不同,Exp-CLIP不是简单地利用预训练的视觉-语言模型,而是通过引入一个投影头,将视觉特征映射到与LLM提供的语义信息对齐的空间。这种方法可以有效地将LLM的知识迁移到面部表情识别任务中,从而提升模型的泛化能力。

关键设计:Exp-CLIP的关键设计包括:1) 投影头的结构:投影头通常是一个多层感知机(MLP),用于将视觉特征映射到与LLM提供的语义信息对齐的空间。2) 损失函数:通常使用对比学习损失函数,例如InfoNCE,来优化投影头的参数,使得视觉特征能够更好地表达面部表情的语义信息。3) LLM的文本指令:通过精心设计的文本指令,可以引导LLM生成更准确、更丰富的面部表情描述,从而提升模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Exp-CLIP在七个真实场景的FER数据集上进行了评估,实验结果表明,Exp-CLIP显著优于CLIP模型和其他几个大型视觉-语言模型(LVLM)。例如,在某些数据集上,Exp-CLIP的性能提升超过了10%。这些结果表明,Exp-CLIP能够有效地利用LLM的知识来增强零样本面部表情识别。

🎯 应用场景

该研究成果可应用于人机交互、情感分析、智能监控等领域。例如,在人机交互中,系统可以根据用户的面部表情来判断用户的情绪状态,从而提供更个性化的服务。在智能监控中,系统可以自动识别异常表情,及时发出警报。未来,该技术有望在医疗健康、教育等领域发挥更大的作用。

📄 摘要(原文)

Current facial expression recognition (FER) models are often designed in a supervised learning manner and thus are constrained by the lack of large-scale facial expression images with high-quality annotations. Consequently, these models often fail to generalize well, performing poorly on unseen images in inference. Vision-language-based zero-shot models demonstrate a promising potential for addressing such challenges. However, these models lack task-specific knowledge and therefore are not optimized for the nuances of recognizing facial expressions. To bridge this gap, this work proposes a novel method, Exp-CLIP, to enhance zero-shot FER by transferring the task knowledge from large language models (LLMs). Specifically, based on the pre-trained vision-language encoders, we incorporate a projection head designed to map the initial joint vision-language space into a space that captures representations of facial actions. To train this projection head for subsequent zero-shot predictions, we propose to align the projected visual representations with task-specific semantic meanings derived from the LLM encoder, and the text instruction-based strategy is employed to customize the LLM knowledge. Given unlabelled facial data and efficient training of the projection head, Exp-CLIP achieves superior zero-shot results to the CLIP models and several other large vision-language models (LVLMs) on seven in-the-wild FER datasets. The code and pre-trained models are available at https://github.com/zengqunzhao/Exp-CLIP.