EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

📄 arXiv: 2502.04424v2 📥 PDF

作者: He Hu, Yucheng Zhou, Lianzhong You, Hongbo Xu, Qianning Wang, Zheng Lian, Fei Richard Yu, Fei Ma, Laizhong Cui

分类: cs.CL, cs.AI

发布日期: 2025-02-06 (更新: 2025-08-25)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EmoBench-M:多模态大语言模型情感智能评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 情感智能 评测基准 人机交互 情感识别 情感理解 社会情感分析

📋 核心要点

  1. 现有情感智能评测基准缺乏对多模态交互复杂性的考虑,无法有效评估MLLM在真实场景下的情感理解能力。
  2. EmoBench-M基于心理学理论,构建包含13个场景的基准,从情感识别、理解到复杂情感分析多维度评估MLLM的情感智能。
  3. 实验结果表明,现有MLLM在EmoBench-M上的表现与人类存在显著差距,亟需提升其情感智能水平。

📝 摘要(中文)

随着多模态大语言模型(MLLMs)集成到机器人系统和各种AI应用中,将情感智能(EI)能力嵌入到这些模型中至关重要,这能使机器人有效地解决人类情感需求并在真实场景中无缝交互。现有的静态的、基于文本的或文本-图像的基准忽略了真实世界交互的多模态复杂性,并且无法捕捉情感表达的动态多模态本质,因此不足以评估MLLMs的EI。基于已建立的EI心理学理论,我们构建了EmoBench-M,这是一个新颖的基准,旨在评估MLLMs在三个关键维度(基础情感识别、会话情感理解和社会复杂情感分析)的13个评估场景中的EI能力。对开源和闭源MLLM在EmoBench-M上的评估表明,它们与人类之间存在显著的性能差距,突出了进一步提升其EI能力的必要性。所有基准资源,包括代码和数据集,均可在https://emo-gml.github.io/公开获取。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)情感智能(EI)评估的问题。现有基准主要集中在文本或文本-图像数据上,忽略了真实世界交互中情感表达的动态性和多模态复杂性,无法准确评估MLLMs在实际应用中的情感理解能力。现有方法的痛点在于缺乏一个全面、多模态、动态的EI评估基准。

核心思路:论文的核心思路是构建一个基于心理学理论的、包含多种情感场景的评测基准EmoBench-M,以更全面、更真实地评估MLLMs的情感智能。通过设计不同的任务和场景,考察模型在情感识别、情感理解和社会复杂情感分析等方面的能力。这样设计的目的是为了更贴近实际应用,更准确地反映模型的情感智能水平。

技术框架:EmoBench-M基准主要包含以下几个部分: 1. 场景设计:基于情感智能的心理学理论,设计了13个评估场景,涵盖基础情感识别、会话情感理解和社会复杂情感分析三个维度。 2. 数据收集与标注:收集多模态数据(例如,文本、图像、语音、视频),并进行情感标注,确保数据的质量和多样性。 3. 评估指标:选择合适的评估指标,例如准确率、F1值等,用于量化MLLMs在不同场景下的表现。 4. 基线模型评估:选择具有代表性的开源和闭源MLLMs作为基线模型,在EmoBench-M上进行评估,分析其优缺点。

关键创新:EmoBench-M的关键创新在于其多模态性和场景的复杂性。与现有基准相比,EmoBench-M更注重模拟真实世界的情感交互,包含更丰富的情感表达方式(例如,语音语调、面部表情、肢体语言等),以及更复杂的社会情境。这使得EmoBench-M能够更全面、更准确地评估MLLMs的情感智能。

关键设计:EmoBench-M的关键设计包括: 1. 多模态数据融合:如何有效地融合来自不同模态的数据,例如文本、图像、语音等,以提高情感识别的准确率。 2. 场景难度控制:如何设计不同难度的场景,以区分不同MLLMs的情感智能水平。 3. 评估指标选择:如何选择合适的评估指标,以全面反映MLLMs在不同维度上的表现。具体参数设置、损失函数和网络结构等细节取决于被评估的MLLM。

🖼️ 关键图片

img_0

📊 实验亮点

EmoBench-M对多个开源和闭源MLLM进行了评估,结果显示,现有MLLM在情感智能方面与人类存在显著差距。例如,在社会复杂情感分析任务中,MLLM的平均准确率远低于人类水平。这些结果表明,当前MLLM的情感智能仍有很大的提升空间,需要进一步的研究和开发。

🎯 应用场景

EmoBench-M的研究成果可应用于多个领域,例如:人机交互、智能客服、心理健康咨询、教育机器人等。通过提升MLLMs的情感智能,可以使机器更好地理解人类情感,从而提供更个性化、更贴心的服务。未来,该研究有望推动人机协作的进一步发展,使机器成为人类更可靠的伙伴。

📄 摘要(原文)

With the integration of Multimodal large language models (MLLMs) into robotic systems and various AI applications, embedding emotional intelligence (EI) capabilities into these models is essential for enabling robots to effectively address human emotional needs and interact seamlessly in real-world scenarios. Existing static, text-based, or text-image benchmarks overlook the multimodal complexities of real-world interactions and fail to capture the dynamic, multimodal nature of emotional expressions, making them inadequate for evaluating MLLMs' EI. Based on established psychological theories of EI, we build EmoBench-M, a novel benchmark designed to evaluate the EI capability of MLLMs across 13 valuation scenarios from three key dimensions: foundational emotion recognition, conversational emotion understanding, and socially complex emotion analysis. Evaluations of both open-source and closed-source MLLMs on EmoBench-M reveal a significant performance gap between them and humans, highlighting the need to further advance their EI capabilities. All benchmark resources, including code and datasets, are publicly available at https://emo-gml.github.io/.