ExpLLM: Towards Chain of Thought for Facial Expression Recognition

📄 arXiv: 2409.02828v1 📥 PDF

作者: Xing Lan, Jian Xue, Ji Qi, Dongmei Jiang, Ke Lu, Tat-Seng Chua

分类: cs.CV, cs.MM

发布日期: 2024-09-04

备注: project page: https://starhiking.github.io/ExpLLM_Page/


💡 一句话要点

提出ExpLLM,利用大语言模型进行面部表情识别的链式推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面部表情识别 大型语言模型 思维链 动作单元 微表情

📋 核心要点

  1. 现有面部表情识别方法缺乏对动作单元间关系和整体表情的深入分析,限制了识别精度。
  2. ExpLLM利用大语言模型生成思维链,从关键观察、情感解释和结论三个角度进行推理。
  3. 实验表明,ExpLLM在RAF-DB和AffectNet数据集上优于现有方法,尤其在微表情识别方面。

📝 摘要(中文)

面部表情识别(FER)是多媒体领域的一项关键任务,在各个领域都有重要意义。准确识别面部表情需要分析其潜在原因。现有方法,例如基于面部动作单元(AUs)的方法,通常只提供AU名称和强度,缺乏对AU之间相互作用以及与整体表情关系的深入理解。本文提出了一种名为ExpLLM的新方法,该方法利用大型语言模型为面部表情识别生成准确的思维链(CoT)。具体来说,我们从三个关键角度设计了CoT机制:关键观察、整体情感解释和结论。关键观察描述了AU的名称、强度和相关的情绪。整体情感解释基于多个AU及其相互作用进行分析,识别出主导情绪及其关系。最后,结论给出了从前面分析得出的最终表情标签。此外,我们还引入了Exp-CoT引擎,旨在构建这种表情CoT并生成指令-描述数据来训练我们的ExpLLM。在RAF-DB和AffectNet数据集上的大量实验表明,ExpLLM优于当前最先进的FER方法。ExpLLM在表情CoT生成方面也超越了最新的GPT-4o,尤其是在识别微表情方面,GPT-4o经常失败。

🔬 方法详解

问题定义:论文旨在解决面部表情识别中,现有方法无法充分理解面部动作单元(AU)之间的复杂关系,以及AU与整体表情之间关联的问题。现有方法通常只关注AU的名称和强度,缺乏对表情内在原因的分析,导致识别精度受限。尤其是在微表情识别方面,现有方法表现不佳。

核心思路:论文的核心思路是利用大型语言模型(LLM)的推理能力,构建一个思维链(Chain of Thought, CoT)来模拟人类专家分析面部表情的过程。通过CoT,LLM可以逐步分析AU的特征、AU之间的相互作用,以及这些因素如何共同构成最终的表情。这种方法旨在提供更深入、更全面的表情理解,从而提高识别准确率。

技术框架:ExpLLM的技术框架主要包含两个部分:Exp-CoT引擎和ExpLLM模型。Exp-CoT引擎负责构建表情CoT,生成用于训练ExpLLM的指令-描述数据。ExpLLM模型则利用这些数据进行训练,学习如何生成准确的表情CoT,并最终进行面部表情识别。整个流程包括:1) 输入面部图像;2) 通过AU检测器提取AU特征;3) Exp-CoT引擎根据AU特征生成CoT;4) ExpLLM模型根据CoT进行表情识别。

关键创新:论文的关键创新在于将大型语言模型引入面部表情识别领域,并设计了一种专门用于表情分析的思维链(CoT)机制。与传统的基于AU的方法不同,ExpLLM能够理解AU之间的复杂关系,并从整体上把握表情的含义。此外,Exp-CoT引擎的引入使得可以自动生成训练数据,降低了人工标注的成本。ExpLLM在微表情识别方面的优势也体现了其创新性。

关键设计:ExpLLM的CoT机制包含三个关键步骤:1) 关键观察:描述AU的名称、强度和相关情绪;2) 整体情感解释:分析多个AU及其相互作用,识别主导情绪及其关系;3) 结论:给出最终的表情标签。Exp-CoT引擎的设计细节未知,但其核心功能是根据AU特征生成高质量的CoT数据。论文中没有明确提及损失函数和网络结构的具体细节,这些可能是基于现有LLM架构进行微调的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExpLLM在RAF-DB和AffectNet数据集上取得了优于当前最先进方法的性能。更重要的是,ExpLLM在表情CoT生成方面超越了最新的GPT-4o,尤其是在识别微表情方面,GPT-4o经常失败。这表明ExpLLM在理解和推理面部表情方面具有更强的能力。

🎯 应用场景

ExpLLM在人机交互、情感计算、心理学研究、医疗诊断等领域具有广泛的应用前景。例如,可以用于开发更自然、更具同理心的人工智能助手,帮助医生诊断精神疾病,或者用于评估患者的情绪状态。该研究还有助于我们更深入地理解人类情感的表达方式。

📄 摘要(原文)

Facial expression recognition (FER) is a critical task in multimedia with significant implications across various domains. However, analyzing the causes of facial expressions is essential for accurately recognizing them. Current approaches, such as those based on facial action units (AUs), typically provide AU names and intensities but lack insight into the interactions and relationships between AUs and the overall expression. In this paper, we propose a novel method called ExpLLM, which leverages large language models to generate an accurate chain of thought (CoT) for facial expression recognition. Specifically, we have designed the CoT mechanism from three key perspectives: key observations, overall emotional interpretation, and conclusion. The key observations describe the AU's name, intensity, and associated emotions. The overall emotional interpretation provides an analysis based on multiple AUs and their interactions, identifying the dominant emotions and their relationships. Finally, the conclusion presents the final expression label derived from the preceding analysis. Furthermore, we also introduce the Exp-CoT Engine, designed to construct this expression CoT and generate instruction-description data for training our ExpLLM. Extensive experiments on the RAF-DB and AffectNet datasets demonstrate that ExpLLM outperforms current state-of-the-art FER methods. ExpLLM also surpasses the latest GPT-4o in expression CoT generation, particularly in recognizing micro-expressions where GPT-4o frequently fails.