DEEMO: De-identity Multimodal Emotion Recognition and Reasoning

作者: Deng Li, Bohao Xing, Xin Liu, Baiqiang Xia, Bihan Wen, Heikki Kälviäinen

分类: cs.CV

发布日期: 2025-04-28 (更新: 2025-10-25)

备注: Accepted by ACMMM 2025

期刊: Proceedings of the 33rd ACM International Conference on Multimedia (2025)

DOI: 10.1145/3746027.3755411

💡 一句话要点

提出DEEMO框架，解决去身份信息的多模态情感识别与推理问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态学习 隐私保护 非面部身体语言 大型语言模型

📋 核心要点

现有情感识别方法依赖身份信息，如面部和语音，存在隐私泄露风险，阻碍了负责任的情感计算发展。
DEEMO框架通过去身份化的多模态数据，结合大型语言模型，实现隐私保护的情感识别与推理。
DEEMO-LLaMA在去身份情感识别和推理任务上均取得SOTA性能，显著优于现有MLLM模型。

📝 摘要（中文）

情感理解是一项关键但具有挑战性的任务。现有方法严重依赖于身份敏感信息，如面部表情和语音，引发了个人隐私问题。为了解决这个问题，我们提出了去身份多模态情感识别与推理（DEEMO），这是一个旨在利用去身份视频和音频输入进行情感理解的新任务。DEEMO数据集包含两个子集：DEEMO-NFBL，包含丰富的非面部身体语言（NFBL）注释；DEEMO-MER，一个使用无身份线索进行多模态情感识别与推理的指令数据集。这种设计支持在不损害身份隐私的情况下进行情感理解。此外，我们提出了DEEMO-LLaMA，一个多模态大型语言模型（MLLM），它集成了去身份音频、视频和文本信息，以增强情感识别和推理能力。大量实验表明，DEEMO-LLaMA在这两项任务上都取得了最先进的性能，显著优于现有的MLLM，在去身份情感识别中实现了74.49%的准确率和74.45%的F1分数，在去身份情感推理中实现了6.20的线索重叠和7.66的标签重叠。我们的工作通过推进保护隐私的情感理解和促进负责任的情感计算，为伦理人工智能做出贡献。

🔬 方法详解

问题定义：现有情感识别方法过度依赖面部表情、语音等身份敏感信息，导致严重的隐私泄露风险。这限制了情感识别技术在注重隐私保护的应用场景中的部署，也与伦理AI的发展方向相悖。因此，需要一种能够在不暴露个体身份信息的前提下，准确理解情感的方法。

核心思路：DEEMO的核心思路是利用非身份相关的多模态信息（如非面部身体语言、音频中的情感特征等）进行情感识别和推理。通过去除或模糊身份信息，同时保留情感表达的关键线索，实现隐私保护的情感理解。这种方法旨在平衡情感识别的准确性和个人隐私的保护。

技术框架：DEEMO框架包含两个主要组成部分：DEEMO数据集和DEEMO-LLaMA模型。DEEMO数据集包含DEEMO-NFBL和DEEMO-MER两个子集，分别用于非面部身体语言的情感识别和多模态情感推理。DEEMO-LLaMA是一个多模态大型语言模型，它接收去身份化的音频、视频和文本信息作为输入，通过多模态融合和推理，输出情感识别结果和推理过程。整体流程包括数据预处理（去身份化）、特征提取、多模态融合、情感识别/推理和结果输出。

关键创新：DEEMO的关键创新在于提出了一个全新的任务——去身份多模态情感识别与推理，并构建了相应的DEEMO数据集。与以往的情感识别方法不同，DEEMO强调在保护个人隐私的前提下进行情感理解。此外，DEEMO-LLaMA模型通过有效融合去身份化的多模态信息，实现了在这一新任务上的SOTA性能。

关键设计：DEEMO-LLaMA模型的关键设计包括：1) 使用专门的去身份化算法处理音频和视频数据，确保身份信息被有效移除；2) 设计了多模态融合模块，将音频、视频和文本特征进行有效整合；3) 采用了指令学习的方式训练模型，使其能够更好地理解和执行情感识别和推理任务；4) 损失函数的设计可能包括交叉熵损失（用于情感分类）和线索/标签重叠损失（用于情感推理）。具体的网络结构细节（如Transformer层的数量、隐藏层维度等）未知。

🖼️ 关键图片

📊 实验亮点

DEEMO-LLaMA在去身份情感识别任务上取得了74.49%的准确率和74.45%的F1分数，在去身份情感推理任务上实现了6.20的线索重叠和7.66的标签重叠。这些结果显著优于现有的多模态大型语言模型，表明DEEMO框架在隐私保护的情感理解方面具有显著优势。

🎯 应用场景

DEEMO框架在注重隐私保护的应用场景中具有广泛的应用前景，例如远程医疗、在线教育、心理咨询等。它可以用于分析患者/学生的情绪状态，提供个性化的服务，同时避免泄露个人身份信息。此外，该技术还可以应用于智能客服、社交媒体分析等领域，提升用户体验，并促进负责任的人工智能发展。

📄 摘要（原文）

Emotion understanding is a critical yet challenging task. Most existing approaches rely heavily on identity-sensitive information, such as facial expressions and speech, which raises concerns about personal privacy. To address this, we introduce the De-identity Multimodal Emotion Recognition and Reasoning (DEEMO), a novel task designed to enable emotion understanding using de-identified video and audio inputs. The DEEMO dataset consists of two subsets: DEEMO-NFBL, which includes rich annotations of Non-Facial Body Language (NFBL), and DEEMO-MER, an instruction dataset for Multimodal Emotion Recognition and Reasoning using identity-free cues. This design supports emotion understanding without compromising identity privacy. In addition, we propose DEEMO-LLaMA, a Multimodal Large Language Model (MLLM) that integrates de-identified audio, video, and textual information to enhance both emotion recognition and reasoning. Extensive experiments show that DEEMO-LLaMA achieves state-of-the-art performance on both tasks, outperforming existing MLLMs by a significant margin, achieving 74.49% accuracy and 74.45% F1-score in de-identity emotion recognition, and 6.20 clue overlap and 7.66 label overlap in de-identity emotion reasoning. Our work contributes to ethical AI by advancing privacy-preserving emotion understanding and promoting responsible affective computing.

DEEMO: De-identity Multimodal Emotion Recognition and Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理