DEEMO: De-identity Multimodal Emotion Recognition and Reasoning

📄 arXiv: 2504.19549v2 📥 PDF

作者: Deng Li, Bohao Xing, Xin Liu, Baiqiang Xia, Bihan Wen, Heikki Kälviäinen

分类: cs.CV

发布日期: 2025-04-28 (更新: 2025-10-25)

备注: Accepted by ACMMM 2025

期刊: Proceedings of the 33rd ACM International Conference on Multimedia (2025)

DOI: 10.1145/3746027.3755411


💡 一句话要点

提出DEEMO框架,解决去身份信息的多模态情感识别与推理问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态学习 隐私保护 非面部身体语言 大型语言模型

📋 核心要点

  1. 现有情感识别方法依赖身份信息,如面部和语音,存在隐私泄露风险,阻碍了负责任的情感计算发展。
  2. DEEMO框架通过去身份化的多模态数据,结合大型语言模型,实现隐私保护的情感识别与推理。
  3. DEEMO-LLaMA在去身份情感识别和推理任务上均取得SOTA性能,显著优于现有MLLM模型。

📝 摘要(中文)

情感理解是一项关键但具有挑战性的任务。现有方法严重依赖于身份敏感信息,如面部表情和语音,引发了个人隐私问题。为了解决这个问题,我们提出了去身份多模态情感识别与推理(DEEMO),这是一个旨在利用去身份视频和音频输入进行情感理解的新任务。DEEMO数据集包含两个子集:DEEMO-NFBL,包含丰富的非面部身体语言(NFBL)注释;DEEMO-MER,一个使用无身份线索进行多模态情感识别与推理的指令数据集。这种设计支持在不损害身份隐私的情况下进行情感理解。此外,我们提出了DEEMO-LLaMA,一个多模态大型语言模型(MLLM),它集成了去身份音频、视频和文本信息,以增强情感识别和推理能力。大量实验表明,DEEMO-LLaMA在这两项任务上都取得了最先进的性能,显著优于现有的MLLM,在去身份情感识别中实现了74.49%的准确率和74.45%的F1分数,在去身份情感推理中实现了6.20的线索重叠和7.66的标签重叠。我们的工作通过推进保护隐私的情感理解和促进负责任的情感计算,为伦理人工智能做出贡献。

🔬 方法详解

问题定义:现有情感识别方法过度依赖面部表情、语音等身份敏感信息,导致严重的隐私泄露风险。这限制了情感识别技术在注重隐私保护的应用场景中的部署,也与伦理AI的发展方向相悖。因此,需要一种能够在不暴露个体身份信息的前提下,准确理解情感的方法。

核心思路:DEEMO的核心思路是利用非身份相关的多模态信息(如非面部身体语言、音频中的情感特征等)进行情感识别和推理。通过去除或模糊身份信息,同时保留情感表达的关键线索,实现隐私保护的情感理解。这种方法旨在平衡情感识别的准确性和个人隐私的保护。

技术框架:DEEMO框架包含两个主要组成部分:DEEMO数据集和DEEMO-LLaMA模型。DEEMO数据集包含DEEMO-NFBL和DEEMO-MER两个子集,分别用于非面部身体语言的情感识别和多模态情感推理。DEEMO-LLaMA是一个多模态大型语言模型,它接收去身份化的音频、视频和文本信息作为输入,通过多模态融合和推理,输出情感识别结果和推理过程。整体流程包括数据预处理(去身份化)、特征提取、多模态融合、情感识别/推理和结果输出。

关键创新:DEEMO的关键创新在于提出了一个全新的任务——去身份多模态情感识别与推理,并构建了相应的DEEMO数据集。与以往的情感识别方法不同,DEEMO强调在保护个人隐私的前提下进行情感理解。此外,DEEMO-LLaMA模型通过有效融合去身份化的多模态信息,实现了在这一新任务上的SOTA性能。

关键设计:DEEMO-LLaMA模型的关键设计包括:1) 使用专门的去身份化算法处理音频和视频数据,确保身份信息被有效移除;2) 设计了多模态融合模块,将音频、视频和文本特征进行有效整合;3) 采用了指令学习的方式训练模型,使其能够更好地理解和执行情感识别和推理任务;4) 损失函数的设计可能包括交叉熵损失(用于情感分类)和线索/标签重叠损失(用于情感推理)。具体的网络结构细节(如Transformer层的数量、隐藏层维度等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEEMO-LLaMA在去身份情感识别任务上取得了74.49%的准确率和74.45%的F1分数,在去身份情感推理任务上实现了6.20的线索重叠和7.66的标签重叠。这些结果显著优于现有的多模态大型语言模型,表明DEEMO框架在隐私保护的情感理解方面具有显著优势。

🎯 应用场景

DEEMO框架在注重隐私保护的应用场景中具有广泛的应用前景,例如远程医疗、在线教育、心理咨询等。它可以用于分析患者/学生的情绪状态,提供个性化的服务,同时避免泄露个人身份信息。此外,该技术还可以应用于智能客服、社交媒体分析等领域,提升用户体验,并促进负责任的人工智能发展。

📄 摘要(原文)

Emotion understanding is a critical yet challenging task. Most existing approaches rely heavily on identity-sensitive information, such as facial expressions and speech, which raises concerns about personal privacy. To address this, we introduce the De-identity Multimodal Emotion Recognition and Reasoning (DEEMO), a novel task designed to enable emotion understanding using de-identified video and audio inputs. The DEEMO dataset consists of two subsets: DEEMO-NFBL, which includes rich annotations of Non-Facial Body Language (NFBL), and DEEMO-MER, an instruction dataset for Multimodal Emotion Recognition and Reasoning using identity-free cues. This design supports emotion understanding without compromising identity privacy. In addition, we propose DEEMO-LLaMA, a Multimodal Large Language Model (MLLM) that integrates de-identified audio, video, and textual information to enhance both emotion recognition and reasoning. Extensive experiments show that DEEMO-LLaMA achieves state-of-the-art performance on both tasks, outperforming existing MLLMs by a significant margin, achieving 74.49% accuracy and 74.45% F1-score in de-identity emotion recognition, and 6.20 clue overlap and 7.66 label overlap in de-identity emotion reasoning. Our work contributes to ethical AI by advancing privacy-preserving emotion understanding and promoting responsible affective computing.