MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs

作者: Zhiwei Liu, Lingfei Qian, Qianqian Xie, Jimin Huang, Kailai Yang, Sophia Ananiadou

分类: cs.CL

发布日期: 2025-05-30

备注: Work in progress

🔗 代码/项目: GITHUB

💡 一句话要点

提出MMAFFBen多语言多模态情感分析基准，用于评估LLM和VLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感分析 多模态学习 多语言处理 大型语言模型 视觉语言模型 基准数据集 情绪识别

📋 核心要点

现有情感分析缺乏多语言多模态的综合评估基准，限制了LLM和VLM在该领域的应用。
构建MMAFFBen基准，包含35种语言的文本、图像和视频数据，覆盖情感极性、强度和情绪分类等任务。
创建MMAFFIn数据集并微调MMAFFLM模型，通过实验系统评估了多种LMs的情感理解能力。

📝 摘要（中文）

大型语言模型（LLM）和视觉-语言模型（VLM）（统称为LMs）已经改变了自然语言处理（NLP）和计算机视觉（CV）领域，并在各个领域展现出卓越的潜力。然而，它们在情感分析（即情感极性分析和情绪检测）方面的能力仍未得到充分探索。这种差距主要是由于缺乏全面的评估基准，以及情感分析任务固有的复杂性。本文介绍了MMAFFBen，这是第一个广泛的开源多语言多模态情感分析基准。MMAFFBen包含跨越35种语言的文本、图像和视频模态，涵盖四个关键的情感分析任务：情感极性、情感强度、情绪分类和情绪强度。此外，我们构建了MMAFFIn数据集，用于在情感分析任务上微调LMs，并在此基础上进一步开发了MMAFFLM-3b和MMAFFLM-7b。我们评估了各种具有代表性的LMs，包括GPT-4o-mini，从而系统地比较了它们的情感理解能力。该项目可在https://github.com/lzw108/MMAFFBen上找到。

🔬 方法详解

问题定义：现有的大型语言模型和视觉语言模型在情感分析方面的能力尚未得到充分的探索和评估。缺乏一个综合性的、多语言多模态的基准数据集，使得研究人员难以系统地评估和比较不同模型在情感理解方面的表现。现有的情感分析数据集通常集中在单一语言或模态上，无法满足对复杂场景下情感理解的需求。

核心思路：论文的核心思路是构建一个大规模、多语言、多模态的情感分析基准数据集MMAFFBen，以促进对LLM和VLM在情感理解方面的研究。通过提供涵盖多种语言和模态的数据，以及多种情感分析任务，该基准旨在全面评估模型的情感理解能力。此外，论文还通过构建MMAFFIn数据集并微调MMAFFLM模型，为情感分析任务提供了一个有效的解决方案。

技术框架：MMAFFBen基准包含文本、图像和视频三种模态的数据，覆盖35种语言。它包含四个主要的情感分析任务：情感极性（正面、负面、中性）、情感强度（情感的强烈程度）、情绪分类（例如，快乐、悲伤、愤怒）和情绪强度（情绪的强烈程度）。论文还构建了MMAFFIn数据集，用于微调LLM。基于MMAFFIn，作者开发了MMAFFLM-3b和MMAFFLM-7b模型。评估阶段，使用MMAFFBen基准评估各种LLM和VLM，并进行系统比较。

关键创新：该论文的关键创新在于构建了第一个大规模、多语言、多模态的情感分析基准数据集MMAFFBen。该基准的全面性和多样性使其能够更准确地评估模型在复杂场景下的情感理解能力。此外，通过构建MMAFFIn数据集并微调MMAFFLM模型，论文为情感分析任务提供了一个有效的解决方案，并展示了在特定数据集上微调模型的重要性。

关键设计：MMAFFBen基准的数据来源于多个公开数据集，并经过清洗和标注，确保数据的质量和一致性。MMAFFIn数据集的构建采用了数据增强等技术，以提高模型的泛化能力。MMAFFLM模型的微调采用了交叉熵损失函数，并使用Adam优化器进行优化。在实验中，作者对各种LLM和VLM进行了评估，并比较了它们在不同任务和模态上的表现。具体的参数设置和网络结构细节可以在论文的实验部分找到。

📊 实验亮点

论文构建了首个大规模多语言多模态情感分析基准MMAFFBen，包含35种语言和文本、图像、视频三种模态。实验结果表明，即使是强大的LLM如GPT-4o-mini在情感分析任务上也存在局限性，表明了MMAFFBen基准的价值和挑战性。通过在MMAFFIn数据集上微调，MMAFFLM模型在情感分析任务上取得了显著的性能提升。

🎯 应用场景

该研究成果可广泛应用于社交媒体分析、舆情监控、智能客服、情感计算等领域。通过利用多语言多模态情感分析技术，可以更准确地理解用户的情感状态和需求，从而提供更个性化、更智能的服务。未来，该技术有望在人机交互、心理健康评估等领域发挥重要作用。

📄 摘要（原文）

Large language models and vision-language models (which we jointly call LMs) have transformed NLP and CV, demonstrating remarkable potential across various fields. However, their capabilities in affective analysis (i.e. sentiment analysis and emotion detection) remain underexplored. This gap is largely due to the absence of comprehensive evaluation benchmarks, and the inherent complexity of affective analysis tasks. In this paper, we introduce MMAFFBen, the first extensive open-source benchmark for multilingual multimodal affective analysis. MMAFFBen encompasses text, image, and video modalities across 35 languages, covering four key affective analysis tasks: sentiment polarity, sentiment intensity, emotion classification, and emotion intensity. Moreover, we construct the MMAFFIn dataset for fine-tuning LMs on affective analysis tasks, and further develop MMAFFLM-3b and MMAFFLM-7b based on it. We evaluate various representative LMs, including GPT-4o-mini, providing a systematic comparison of their affective understanding capabilities. This project is available at https://github.com/lzw108/MMAFFBen.

MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理