Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant Features

📄 arXiv: 2312.05265v1 📥 PDF

作者: Anderson Augusma, Dominique Vaufreydaz, Frédérique Letué

分类: cs.AI, cs.CR, cs.CV, cs.LG, eess.AS

发布日期: 2023-12-06

期刊: ICMI '23: INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, Oct 2023, Paris, France. pp.750-754

DOI: 10.1145/3577190.3616546


💡 一句话要点

提出一种隐私合规的多模态群体情绪识别方法,适用于EmotiW 2023挑战赛。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 群体情绪识别 多模态融合 隐私保护 全局特征 交叉注意力

📋 核心要点

  1. 现有群体情绪识别方法依赖个体特征,存在隐私泄露风险,限制了其在实际场景中的应用。
  2. 该论文提出一种基于全局特征的多模态群体情绪识别方法,利用视频和音频信息,并通过交叉注意力机制进行融合。
  3. 实验结果表明,该方法在EmotiW挑战赛中取得了较好的性能,验证了隐私合规特征在群体情绪识别中的有效性。

📝 摘要(中文)

本文探索了在EmotiW 2023挑战赛中,使用隐私合规特征进行“野外”群体情绪识别。群体情绪识别在社交机器人、对话代理、电子辅导和学习分析等领域具有应用价值。本研究仅使用全局特征,避免使用个体特征,即避免使用可用于识别或跟踪视频中人物的所有特征(面部标志、身体姿势、音频分割等)。所提出的多模态模型由视频和音频分支组成,并在模态之间使用交叉注意力机制。视频分支基于微调的ViT架构。音频分支提取Mel频谱图,并通过CNN块输入到Transformer编码器中。我们的训练范式包括生成合成数据集,以数据驱动的方式提高模型对面部表情的敏感性。大量实验表明了该方法的重要性。我们的隐私合规方案在EmotiW挑战赛中表现良好,最佳模型在验证集和测试集上分别达到了79.24%和75.13%的准确率。值得注意的是,我们的研究结果表明,仅使用视频中均匀分布的5帧,并采用隐私合规特征,就可以达到这一准确率水平。

🔬 方法详解

问题定义:群体情绪识别旨在理解视频或图像中一群人的整体情绪状态。现有方法通常依赖于个体级别的特征,例如面部关键点、姿态信息等,这些特征容易泄露个人身份信息,引发隐私问题。因此,如何在保护用户隐私的前提下,实现准确的群体情绪识别是一个重要的挑战。

核心思路:该论文的核心思路是仅使用全局特征进行群体情绪识别,避免使用任何可以识别或跟踪个人的个体特征。通过提取视频和音频的全局信息,并利用多模态融合技术,实现对群体情绪的准确判断。这种方法旨在平衡识别准确率和隐私保护,使其更适用于实际应用场景。

技术框架:该模型包含视频和音频两个分支。视频分支使用预训练的ViT模型,并进行微调以适应群体情绪识别任务。音频分支首先提取Mel频谱图,然后通过CNN块提取特征,最后使用Transformer编码器进行序列建模。为了融合视频和音频信息,该模型采用交叉注意力机制,使每个模态能够关注另一个模态中的重要信息。

关键创新:该论文的关键创新在于提出了一种完全基于全局特征的群体情绪识别方法,避免了使用任何个体级别的特征,从而实现了隐私保护。此外,该论文还提出了一种数据增强方法,通过生成合成数据集来提高模型对面部表情的敏感性。

关键设计:视频分支使用ViT-Base模型,并使用ImageNet预训练权重进行初始化。音频分支的CNN块包含多个卷积层、池化层和激活函数。交叉注意力机制使用多头注意力,并对每个模态的特征进行加权。为了提高模型对面部表情的敏感性,该论文生成了包含不同面部表情的合成图像,并将其添加到训练数据集中。损失函数使用交叉熵损失。

📊 实验亮点

该论文在EmotiW 2023挑战赛中取得了显著成果,最佳模型在验证集和测试集上分别达到了79.24%和75.13%的准确率。值得注意的是,该模型仅使用了视频中均匀分布的5帧,并采用隐私合规特征,就达到了这一准确率水平,表明了该方法在隐私保护和效率方面的优势。实验结果验证了全局特征在群体情绪识别中的有效性。

🎯 应用场景

该研究成果可应用于多种场景,例如社交机器人可以通过识别群体情绪来更好地与人互动;对话代理可以根据群体情绪调整对话策略;电子辅导系统可以根据学生的情绪状态提供个性化辅导;学习分析系统可以分析课堂氛围,为教师提供教学反馈。该研究有助于开发更智能、更人性化的AI系统,并促进人机协作。

📄 摘要(原文)

This paper explores privacy-compliant group-level emotion recognition ''in-the-wild'' within the EmotiW Challenge 2023. Group-level emotion recognition can be useful in many fields including social robotics, conversational agents, e-coaching and learning analytics. This research imposes itself using only global features avoiding individual ones, i.e. all features that can be used to identify or track people in videos (facial landmarks, body poses, audio diarization, etc.). The proposed multimodal model is composed of a video and an audio branches with a cross-attention between modalities. The video branch is based on a fine-tuned ViT architecture. The audio branch extracts Mel-spectrograms and feed them through CNN blocks into a transformer encoder. Our training paradigm includes a generated synthetic dataset to increase the sensitivity of our model on facial expression within the image in a data-driven way. The extensive experiments show the significance of our methodology. Our privacy-compliant proposal performs fairly on the EmotiW challenge, with 79.24% and 75.13% of accuracy respectively on validation and test set for the best models. Noticeably, our findings highlight that it is possible to reach this accuracy level with privacy-compliant features using only 5 frames uniformly distributed on the video.