Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild
作者: Nicolas Richet, Soufiane Belharbi, Haseeb Aslam, Meike Emilie Schadt, Manuela González-González, Gustave Cortal, Alessandro Lameiras Koerich, Marco Pedersoli, Alain Finkel, Simon Bacon, Eric Granger
分类: cs.CV
发布日期: 2024-07-17 (更新: 2024-09-20)
备注: 14 pages, 3 figures, ECCVw 2024
💡 一句话要点
对比文本化与特征化模型,解决复杂场景下多模态情感识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 复合情感 文本化 特征融合 大型语言模型
📋 核心要点
- 现有情感识别系统难以处理真实场景中普遍存在的复合情感,且多模态融合存在不确定性。
- 论文探索将非文本模态(如音频和视觉)转化为文本,利用大型语言模型学习跨模态情感关联。
- 实验表明,在真实场景数据集上,文本化方法精度低于特征方法,但在富文本数据集中表现更优。
📝 摘要(中文)
多模态情感识别系统通常训练从视觉、音频和文本等不同模态中提取特征,并将这些特征组合起来以预测个体基本情感。然而,现实场景中经常出现复合情感,并且在不同模态中识别这种复杂情感的不确定性对基于特征的模型提出了挑战。作为替代方案,像BERT和LLaMA这样新兴的大型语言模型(LLM)可以依赖于显式的非语言线索,这些线索可以从不同的非文本模态(例如,音频和视觉)转换为文本。模态的文本化利用情感线索增强数据,以帮助LLM在共享文本空间中编码所有模态之间的互连。在这样的基于文本的模型中,利用情感识别任务的先验知识来文本化相关的非语言线索,例如来自声音表达的音频音调和来自面部表情的动作单元强度。由于许多LLM的预训练权重是公开可用的,因此无需大规模数据集上的训练,从而可以针对下游任务(如复合情感识别(CER))进行微调。本文比较了基于文本和基于特征的方法在视频中进行复合多模态情感识别的潜力。在具有挑战性的C-EXPR-DB数据集上进行了CER实验,并与MELD数据集上基本情感识别的结果进行了对比。结果表明,在C-EXPR-DB上,多模态文本化提供的准确率低于基于特征的模型,因为文本转录是在实际场景中捕获的。但是,当视频数据具有丰富的文本记录时,可以实现更高的准确率。
🔬 方法详解
问题定义:论文旨在解决在复杂、真实场景下,多模态复合情感识别的难题。现有基于特征融合的方法难以有效捕捉不同模态之间的复杂关联,且对噪声数据敏感。此外,针对复合情感的标注数据稀缺,限制了模型的训练效果。
核心思路:论文的核心思路是将非文本模态(如音频和视觉)的信息转化为文本描述,从而利用大型语言模型(LLM)强大的文本理解和推理能力,学习跨模态的情感关联。通过将不同模态的信息统一到文本空间,可以更好地利用LLM的预训练知识,并减少对大规模标注数据的依赖。
技术框架:整体框架包含两个主要分支:基于特征的模型和基于文本的模型。基于特征的模型采用传统的多模态特征提取和融合方法,例如提取音频特征、视觉特征和文本特征,然后使用分类器进行情感预测。基于文本的模型首先将音频和视觉信息转化为文本描述,然后将这些文本描述与原始文本信息拼接在一起,输入到LLM中进行情感预测。
关键创新:论文的关键创新在于提出了多模态文本化的方法,将非文本模态的信息转化为文本描述,从而能够利用LLM进行多模态情感识别。与传统的特征融合方法相比,文本化方法能够更好地捕捉不同模态之间的语义关联,并利用LLM的预训练知识。
关键设计:论文中,音频信息的文本化通过提取音频的音调等特征,并将其描述为文本。例如,“说话者声音高亢”或“说话者声音低沉”。视觉信息的文本化通过提取面部动作单元(Action Units)的强度,并将其描述为文本。例如,“眉毛抬起”或“嘴角向下”。LLM采用预训练的BERT或LLaMA模型,并在情感识别数据集上进行微调。损失函数采用交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
论文在C-EXPR-DB数据集上进行了实验,结果表明,在真实场景下,基于特征的模型优于文本化模型。但在具有丰富文本记录的数据集上,文本化模型表现更佳。这表明文本化方法在特定场景下具有潜力,未来可通过优化文本化策略和利用更强大的LLM来提升性能。
🎯 应用场景
该研究成果可应用于智能客服、情感陪护机器人、心理健康评估等领域。通过准确识别用户在复杂场景下的复合情感,可以提升人机交互的自然性和智能化水平,为用户提供更个性化、更贴心的服务。未来,该技术有望在医疗、教育、娱乐等领域发挥重要作用。
📄 摘要(原文)
Systems for multimodal emotion recognition (ER) are commonly trained to extract features from different modalities (e.g., visual, audio, and textual) that are combined to predict individual basic emotions. However, compound emotions often occur in real-world scenarios, and the uncertainty of recognizing such complex emotions over diverse modalities is challenging for feature-based models. As an alternative, emerging large language models (LLMs) like BERT and LLaMA can rely on explicit non-verbal cues that may be translated from different non-textual modalities (e.g., audio and visual) into text. Textualization of modalities augments data with emotional cues to help the LLM encode the interconnections between all modalities in a shared text space. In such text-based models, prior knowledge of ER tasks is leveraged to textualize relevant non-verbal cues such as audio tone from vocal expressions, and action unit intensity from facial expressions. Since the pre-trained weights are publicly available for many LLMs, training on large-scale datasets is unnecessary, allowing to fine-tune for downstream tasks such as compound ER (CER). This paper compares the potential of text- and feature-based approaches for compound multimodal ER in videos. Experiments were conducted on the challenging C-EXPR-DB dataset in the wild for CER, and contrasted with results on the MELD dataset for basic ER. Our results indicate that multimodal textualization provides lower accuracy than feature-based models on C-EXPR-DB, where text transcripts are captured in the wild. However, higher accuracy can be achieved when the video data has rich transcripts. Our code is available.