Zero-shot Emotion Annotation in Facial Images Using Large Multimodal Models: Benchmarking and Prospects for Multi-Class, Multi-Frame Approaches

📄 arXiv: 2502.12454v2 📥 PDF

作者: He Zhang, Xinyi Fu

分类: cs.CV, cs.AI, cs.HC, cs.LG

发布日期: 2025-02-18 (更新: 2025-08-12)

备注: 10 pages, accepted to MRAC'25: 3rd International Workshop on Multimodal and Responsible Affective Computing (ACM-MM 2025)


💡 一句话要点

利用大型多模态模型实现面部图像零样本情感标注,探索多分类和多帧方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 情感识别 多模态模型 人脸图像 GPT-4o 多帧融合 FERV39k

📋 核心要点

  1. 现有面部情感识别方法依赖大量标注数据,成本高昂且难以泛化到真实场景。
  2. 利用大型多模态模型强大的零样本学习能力,直接对人脸图像进行情感标注,无需额外训练。
  3. 实验表明,该方法在三元情感分类上取得了较好的精度,多帧融合策略略微提升了标注准确性。

📝 摘要(中文)

本研究探讨了使用大型多模态模型(LMMs)自动标注日常场景中人类情感的可行性和性能。我们使用GPT-4o-mini模型在公开的FERV39k数据集的DailyLife子集上进行了实验,对视频片段中提取的关键帧进行快速的零样本标注。在七种情感分类(“愤怒”、“厌恶”、“恐惧”、“快乐”、“中性”、“悲伤”、“惊讶”)下,LMM的平均精度约为50%。相反,当限制为三元情感分类(负面/中性/正面)时,平均精度提高到约64%。此外,我们探索了一种整合1-2秒视频片段中的多个帧以提高标注性能并降低成本的策略。结果表明,这种方法可以略微提高标注准确性。总的来说,我们的初步研究结果突出了零样本LMMs在人脸情感标注任务中的潜在应用,为降低标注成本和扩大LMMs在复杂多模态环境中的适用性提供了新途径。

🔬 方法详解

问题定义:论文旨在解决人脸图像情感自动标注问题,尤其是在零样本场景下的标注。现有方法依赖于大量标注数据进行训练,成本高昂,并且在真实场景中泛化能力有限。因此,如何利用大型多模态模型(LMMs)的强大能力,在没有或只有少量标注数据的情况下,实现高效准确的情感标注是一个重要的挑战。

核心思路:论文的核心思路是利用大型多模态模型(如GPT-4o-mini)的零样本学习能力,直接对人脸图像进行情感标注。通过将人脸图像输入LMM,并结合适当的提示词,让LMM直接预测图像中的情感类别。此外,论文还探索了多帧融合策略,即利用视频片段中的多个帧来提高标注的准确性和鲁棒性。

技术框架:整体流程包括以下几个步骤:1) 数据集选择:选择FERV39k数据集的DailyLife子集;2) 关键帧提取:从视频片段中提取关键帧;3) 情感标注:使用GPT-4o-mini模型对关键帧进行零样本情感标注;4) 多帧融合:将视频片段中的多个帧进行融合,以提高标注准确性;5) 性能评估:评估LMM在不同情感分类任务上的性能。

关键创新:论文的关键创新在于将大型多模态模型应用于零样本人脸情感标注任务。与传统的监督学习方法相比,该方法无需大量标注数据,可以显著降低标注成本。此外,论文还探索了多帧融合策略,进一步提高了标注的准确性和鲁棒性。

关键设计:论文的关键设计包括:1) 使用GPT-4o-mini模型作为情感标注器;2) 设计合适的提示词,引导LMM进行情感预测;3) 探索不同的多帧融合策略,例如平均池化等;4) 评估不同情感分类任务(七分类和三分类)下的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在七种情感分类下,GPT-4o-mini模型的平均精度约为50%。当限制为三元情感分类时,平均精度提高到约64%。此外,多帧融合策略可以略微提高标注准确性。这些结果表明,大型多模态模型在零样本人脸情感标注任务中具有一定的潜力。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、心理健康评估等领域。例如,在智能监控中,可以自动识别监控视频中的异常情绪,及时预警。在人机交互中,可以根据用户的情绪状态,提供个性化的服务。在心理健康评估中,可以辅助医生进行情绪分析,提高诊断效率。

📄 摘要(原文)

This study investigates the feasibility and performance of using large multimodal models (LMMs) to automatically annotate human emotions in everyday scenarios. We conducted experiments on the DailyLife subset of the publicly available FERV39k dataset, employing the GPT-4o-mini model for rapid, zero-shot labeling of key frames extracted from video segments. Under a seven-class emotion taxonomy ("Angry," "Disgust," "Fear," "Happy," "Neutral," "Sad," "Surprise"), the LMM achieved an average precision of approximately 50%. In contrast, when limited to ternary emotion classification (negative/neutral/positive), the average precision increased to approximately 64%. Additionally, we explored a strategy that integrates multiple frames within 1-2 second video clips to enhance labeling performance and reduce costs. The results indicate that this approach can slightly improve annotation accuracy. Overall, our preliminary findings highlight the potential application of zero-shot LMMs in human facial emotion annotation tasks, offering new avenues for reducing labeling costs and broadening the applicability of LMMs in complex multimodal environments.