Towards Unified Facial Action Unit Recognition Framework by Large Language Models

📄 arXiv: 2409.08444v1 📥 PDF

作者: Guohong Hu, Xing Lan, Hanyu Jiang, Jiayi Lyu, Jian Xue

分类: cs.CV

发布日期: 2024-09-13


💡 一句话要点

提出基于大语言模型的统一面部动作单元识别框架AU-LLaVA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面部动作单元识别 大语言模型 多模态学习 情感计算 统一框架

📋 核心要点

  1. 现有面部动作单元识别方法缺乏统一框架,难以处理不同格式的输出需求,限制了其通用性和灵活性。
  2. AU-LLaVA利用大语言模型的强大能力,通过视觉编码器和线性投影层将图像特征映射到文本空间,实现统一的AU识别。
  3. 实验表明,AU-LLaVA在多个数据集上取得了显著的性能提升,尤其在特定AU识别和FEAFA数据集上表现突出。

📝 摘要(中文)

本文提出AU-LLaVA,这是首个基于大语言模型(LLM)的统一面部动作单元(AU)识别框架。AU-LLaVA由视觉编码器、线性投影层和预训练LLM组成。我们精心设计了文本描述,并在各种AU数据集上对模型进行微调,使其能够为同一输入图像生成不同格式的AU识别结果。在BP4D和DISFA数据集上,AU-LLaVA为近一半的AU提供了最准确的识别结果。与之前的基准结果相比,我们的模型在特定AU识别方面实现了高达11.4%的F1分数提升。在FEAFA数据集上,与之前的基准结果相比,我们的方法在所有24个AU上都取得了显著的改进。AU-LLaVA在AU识别方面表现出卓越的性能和通用性。

🔬 方法详解

问题定义:面部动作单元(AU)识别旨在自动检测面部肌肉运动,是情感计算的关键组成部分。现有方法通常针对特定数据集和输出格式设计,缺乏通用性和灵活性,难以适应不同的应用场景。此外,如何有效利用大规模预训练模型来提升AU识别的性能也是一个挑战。

核心思路:本文的核心思路是利用大语言模型(LLM)的强大文本理解和生成能力,将AU识别任务转化为一个文本生成问题。通过将图像特征投影到LLM的文本空间,并结合精心设计的文本提示,模型可以生成不同格式的AU识别结果,从而实现统一的AU识别框架。

技术框架:AU-LLaVA框架主要由三个模块组成:1) 视觉编码器:用于提取输入图像的视觉特征。2) 线性投影层:将视觉特征投影到LLM的文本空间。3) 预训练LLM:根据投影后的视觉特征和文本提示,生成AU识别结果。整个流程是:输入图像 -> 视觉编码器 -> 视觉特征 -> 线性投影层 -> 文本空间特征 -> LLM -> AU识别结果。

关键创新:AU-LLaVA的关键创新在于将AU识别任务与大语言模型相结合,构建了一个统一的识别框架。与传统方法相比,AU-LLaVA能够处理不同格式的输出需求,并且可以利用LLM的先验知识来提升识别性能。此外,通过精心设计的文本提示,可以引导LLM生成更准确和可解释的AU识别结果。

关键设计:在具体实现上,视觉编码器可以使用预训练的卷积神经网络(如ResNet),线性投影层可以使用简单的线性变换。LLM可以选择现有的开源模型(如LLaMA)。关键在于文本提示的设计,需要包含AU的名称、描述以及期望的输出格式。损失函数可以使用交叉熵损失或序列生成损失,具体取决于LLM的类型和输出格式。

🖼️ 关键图片

fig_0

📊 实验亮点

AU-LLaVA在BP4D和DISFA数据集上,为近一半的AU提供了最准确的识别结果,并在特定AU识别方面实现了高达11.4%的F1分数提升。在FEAFA数据集上,该方法在所有24个AU上都取得了显著的改进,证明了其卓越的性能和通用性。这些结果表明,AU-LLaVA能够有效地利用大语言模型来提升AU识别的准确性和鲁棒性。

🎯 应用场景

AU-LLaVA在情感计算、人机交互、心理学研究等领域具有广泛的应用前景。例如,可以用于自动评估用户的情绪状态,从而改善人机交互体验;也可以用于心理学研究,帮助研究人员分析面部表情与心理状态之间的关系。此外,该框架还可以应用于安全监控、医疗诊断等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Facial Action Units (AUs) are of great significance in the realm of affective computing. In this paper, we propose AU-LLaVA, the first unified AU recognition framework based on the Large Language Model (LLM). AU-LLaVA consists of a visual encoder, a linear projector layer, and a pre-trained LLM. We meticulously craft the text descriptions and fine-tune the model on various AU datasets, allowing it to generate different formats of AU recognition results for the same input image. On the BP4D and DISFA datasets, AU-LLaVA delivers the most accurate recognition results for nearly half of the AUs. Our model achieves improvements of F1-score up to 11.4% in specific AU recognition compared to previous benchmark results. On the FEAFA dataset, our method achieves significant improvements over all 24 AUs compared to previous benchmark results. AU-LLaVA demonstrates exceptional performance and versatility in AU recognition.