Towards Unified Facial Action Unit Recognition Framework by Large Language Models

作者: Guohong Hu, Xing Lan, Hanyu Jiang, Jiayi Lyu, Jian Xue

分类: cs.CV

发布日期: 2024-09-13

💡 一句话要点

提出基于大语言模型的统一面部动作单元识别框架AU-LLaVA

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 面部动作单元识别 大语言模型 多模态学习 情感计算 统一框架

📋 核心要点

现有面部动作单元识别方法缺乏统一框架，难以处理不同格式的输出需求，限制了其通用性和灵活性。
AU-LLaVA利用大语言模型的强大能力，通过视觉编码器和线性投影层将图像特征映射到文本空间，实现统一的AU识别。
实验表明，AU-LLaVA在多个数据集上取得了显著的性能提升，尤其在特定AU识别和FEAFA数据集上表现突出。

📝 摘要（中文）

本文提出AU-LLaVA，这是首个基于大语言模型（LLM）的统一面部动作单元（AU）识别框架。AU-LLaVA由视觉编码器、线性投影层和预训练LLM组成。我们精心设计了文本描述，并在各种AU数据集上对模型进行微调，使其能够为同一输入图像生成不同格式的AU识别结果。在BP4D和DISFA数据集上，AU-LLaVA为近一半的AU提供了最准确的识别结果。与之前的基准结果相比，我们的模型在特定AU识别方面实现了高达11.4%的F1分数提升。在FEAFA数据集上，与之前的基准结果相比，我们的方法在所有24个AU上都取得了显著的改进。AU-LLaVA在AU识别方面表现出卓越的性能和通用性。

🔬 方法详解

问题定义：面部动作单元（AU）识别旨在自动检测面部肌肉运动，是情感计算的关键组成部分。现有方法通常针对特定数据集和输出格式设计，缺乏通用性和灵活性，难以适应不同的应用场景。此外，如何有效利用大规模预训练模型来提升AU识别的性能也是一个挑战。

核心思路：本文的核心思路是利用大语言模型（LLM）的强大文本理解和生成能力，将AU识别任务转化为一个文本生成问题。通过将图像特征投影到LLM的文本空间，并结合精心设计的文本提示，模型可以生成不同格式的AU识别结果，从而实现统一的AU识别框架。

技术框架：AU-LLaVA框架主要由三个模块组成：1) 视觉编码器：用于提取输入图像的视觉特征。2) 线性投影层：将视觉特征投影到LLM的文本空间。3) 预训练LLM：根据投影后的视觉特征和文本提示，生成AU识别结果。整个流程是：输入图像 -> 视觉编码器 -> 视觉特征 -> 线性投影层 -> 文本空间特征 -> LLM -> AU识别结果。

关键创新：AU-LLaVA的关键创新在于将AU识别任务与大语言模型相结合，构建了一个统一的识别框架。与传统方法相比，AU-LLaVA能够处理不同格式的输出需求，并且可以利用LLM的先验知识来提升识别性能。此外，通过精心设计的文本提示，可以引导LLM生成更准确和可解释的AU识别结果。

关键设计：在具体实现上，视觉编码器可以使用预训练的卷积神经网络（如ResNet），线性投影层可以使用简单的线性变换。LLM可以选择现有的开源模型（如LLaMA）。关键在于文本提示的设计，需要包含AU的名称、描述以及期望的输出格式。损失函数可以使用交叉熵损失或序列生成损失，具体取决于LLM的类型和输出格式。

🖼️ 关键图片

📊 实验亮点

AU-LLaVA在BP4D和DISFA数据集上，为近一半的AU提供了最准确的识别结果，并在特定AU识别方面实现了高达11.4%的F1分数提升。在FEAFA数据集上，该方法在所有24个AU上都取得了显著的改进，证明了其卓越的性能和通用性。这些结果表明，AU-LLaVA能够有效地利用大语言模型来提升AU识别的准确性和鲁棒性。

🎯 应用场景

AU-LLaVA在情感计算、人机交互、心理学研究等领域具有广泛的应用前景。例如，可以用于自动评估用户的情绪状态，从而改善人机交互体验；也可以用于心理学研究，帮助研究人员分析面部表情与心理状态之间的关系。此外，该框架还可以应用于安全监控、医疗诊断等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Facial Action Units (AUs) are of great significance in the realm of affective computing. In this paper, we propose AU-LLaVA, the first unified AU recognition framework based on the Large Language Model (LLM). AU-LLaVA consists of a visual encoder, a linear projector layer, and a pre-trained LLM. We meticulously craft the text descriptions and fine-tune the model on various AU datasets, allowing it to generate different formats of AU recognition results for the same input image. On the BP4D and DISFA datasets, AU-LLaVA delivers the most accurate recognition results for nearly half of the AUs. Our model achieves improvements of F1-score up to 11.4% in specific AU recognition compared to previous benchmark results. On the FEAFA dataset, our method achieves significant improvements over all 24 AUs compared to previous benchmark results. AU-LLaVA demonstrates exceptional performance and versatility in AU recognition.

Towards Unified Facial Action Unit Recognition Framework by Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理