MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models
作者: Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada
分类: cs.CV, cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出MultiEmo-Bench多标签视觉情感分析基准,用于评估多模态大语言模型的情感理解能力。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉情感分析 多标签学习 基准数据集 情感计算
📋 核心要点
- 现有视觉情感分析数据集标注方式的局限性,即每个图像仅标注单一候选情感,无法反映图像可能引发多种情感的现实。
- 提出MultiEmo-Bench数据集,通过多名标注者选择所有感受到的情感并进行聚合,从而提供更可靠的情感分布标签。
- 实验结果表明,现有MLLMs在视觉情感分析方面取得了进展,但仍有提升空间,且LLM作为评判标准的方法效果不稳定。
📝 摘要(中文)
本文介绍了一个多标签视觉情感分析基准数据集MultiEmo-Bench,旨在全面评估多模态大语言模型(MLLMs)预测图像所引发情感的能力。近期的用户研究报告了一个违反直觉的发现:人类可能更喜欢MLLMs的预测,而不是现有数据集中的标签。我们认为这种现象源于现有数据集中次优的标注方案,该方案为每个标注者展示每个图像的单个候选情感,并判断它是否被唤起。这种方法显然是有限的,因为单个图像可以唤起具有不同强度的多种情感。因此,基于这些数据集的评估可能低估了MLLMs的能力,但仍然缺乏用于评估此类模型的适当基准。为了解决这个问题,我们引入了一个新的多标签基准数据集,用于面向MLLMs评估的视觉情感分析。我们为每张图像聘请20名标注者,并要求他们从图像中选择他们感受到的所有情感。然后,我们汇总所有标注者的投票,提供一个更可靠和具有代表性的数据集,该数据集标有情感分布。最终的数据集包含10,344张图像,以及来自八种情感的236,998张有效投票。基于此基准数据集,我们评估了包括Qwen3-VL、OpenAI的GPT、Gemini和Claude在内的多个最新模型。我们评估了模型在主导情感预测和情感分布预测方面的性能。我们的结果表明了最新MLLMs所取得的进展,同时也表明仍有很大的改进空间。此外,我们使用LLM作为评判标准的实验表明,该方法并不能持续提高MLLMs的性能,表明其在视觉情感分析这一主观任务中的局限性。
🔬 方法详解
问题定义:论文旨在解决现有视觉情感分析数据集中标注方案的不足,即现有数据集通常只为每张图像标注一个候选情感,无法捕捉图像可能引发的多种情感以及情感强度的差异。这导致使用这些数据集评估多模态大语言模型(MLLMs)时,可能低估了模型的情感理解能力。现有方法的痛点在于标注方式过于简化,无法反映真实的人类情感体验。
核心思路:论文的核心思路是通过改进数据标注方式,构建一个更可靠、更具代表性的多标签情感分析数据集。具体来说,他们采用多人标注的方式,让多名标注者独立地从一组预定义的情感标签中选择所有他们认为图像所引发的情感。然后,通过聚合所有标注者的投票,得到一个情感分布,以此作为图像的标签。这种方式可以更全面地反映图像所引发的各种情感及其强度。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集包含各种场景和主题的图像。2) 数据标注:为每张图像聘请20名标注者,让他们独立地从8种情感标签中选择所有感受到的情感。3) 数据聚合:将所有标注者的投票进行聚合,计算每种情感的得票率,形成情感分布。4) 模型评估:使用MultiEmo-Bench数据集评估现有MLLMs在主导情感预测和情感分布预测方面的性能。5) LLM作为评判标准实验:探索使用LLM作为评判标准来评估MLLMs性能的方法。
关键创新:该论文的关键创新在于提出了MultiEmo-Bench数据集,该数据集采用多标签、多人标注的方式,能够更准确地反映图像所引发的复杂情感。与现有数据集相比,MultiEmo-Bench数据集的情感标签更丰富、更可靠,更适合用于评估MLLMs的情感理解能力。此外,论文还探索了使用LLM作为评判标准来评估MLLMs性能的方法,但结果表明该方法在视觉情感分析任务中存在局限性。
关键设计:在数据标注方面,论文选择了8种常见的情感标签。在数据聚合方面,论文采用简单的投票机制,计算每种情感的得票率。在模型评估方面,论文使用了常用的评估指标,如准确率和F1值。在LLM作为评判标准实验中,论文使用了不同的提示语来引导LLM进行评判。
🖼️ 关键图片
📊 实验亮点
MultiEmo-Bench数据集包含10,344张图像和236,998张有效投票,采用多人标注和情感分布的方式,提高了数据质量。实验评估了Qwen3-VL、GPT、Gemini和Claude等多个MLLMs,结果表明现有模型在视觉情感分析方面仍有提升空间。LLM作为评判标准的实验表明,该方法在视觉情感分析任务中效果不稳定。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型的情感理解能力,使其在人机交互、情感计算、智能推荐等领域发挥更大的作用。例如,可以用于开发更具同理心的聊天机器人,或根据用户的情感状态推荐更合适的内容。未来,该数据集可以促进更深入的视觉情感分析研究,推动相关技术的发展。
📄 摘要(原文)
This paper introduces a multi-label visual emotion analysis benchmark dataset for comprehensively evaluating the ability of multimodal large language models (MLLMs) to predict the emotions evoked by images. Recent user studies report an unintuitive finding: humans may prefer the predictions of MLLMs over the labels in existing datasets. We argue that this phenomenon stems from the suboptimal annotation scheme used in existing datasets, where each annotator is shown a single candidate emotion for each image and judges whether it is evoked or not. This approach is clearly limited because a single image can evoke multiple emotions with varying intensities. As a result, evaluations based on these datasets may underestimate the capabilities of MLLMs, yet an appropriate benchmark for evaluating such models remains lacking. To address this issue, we introduce a new multi-label benchmark dataset for visual emotion analysis toward MLLMs evaluation. We hire $20$ annotators per image and ask them to select all emotions they feel from an image. Then, we aggregate the votes across all annotators, providing a more reliable and representative dataset labeled with a distribution of emotions. The resulting dataset contains $10,344$ images with $236,998$ valid votes across eight emotions. Based on this benchmark dataset, we evaluate several recent models, including Qwen3-VL, OpenAI's GPT, Gemini, and Claude. We assess model performance on both dominant emotion prediction and emotion distribution prediction. Our results demonstrate the progress achieved by recent MLLMs while also indicating that substantial room for improvement remains. Furthermore, our experiments with LLM-as-a-judge show that the method does not consistently improve MLLMs' performance, indicating its limitations for the subjective task of visual emotion analysis.