Explainable Multimodal Sentiment Analysis on Bengali Memes

📄 arXiv: 2401.09446v1 📥 PDF

作者: Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir Sarker, Sajib Kumar Saha Joy, Faisal Muhammad Shah

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2023-12-20


💡 一句话要点

提出基于ResNet50和BanglishBERT的多模态方法,用于孟加拉语表情包情感分析。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 孟加拉语表情包 情感分析 多模态融合 ResNet50 BanglishBERT 低资源语言 可解释AI

📋 核心要点

  1. 现有孟加拉语表情包情感分析数据集稀缺且不平衡,现有方法准确率低,缺乏有效的情感理解。
  2. 利用ResNet50提取图像特征,BanglishBERT处理文本信息,融合多模态信息进行情感分析。
  3. 实验表明,该方法在孟加拉语表情包情感分析上取得了0.71的加权F1分数,性能显著提升。

📝 摘要(中文)

表情包已成为数字时代一种独特而有效的交流形式,吸引了在线社区并跨越了文化障碍。虽然表情包通常与幽默相关,但它们具有传达广泛情感的惊人能力,包括快乐、讽刺、沮丧等等。理解和解释表情包背后的情感在信息时代变得至关重要。之前的研究探索了基于文本、基于图像和多模态的方法,从而开发了诸如CAPSAN和PromptHate之类的模型来检测各种表情包类别。然而,对孟加拉语表情包等低资源语言的研究仍然很少,公开可用的数据集有限。最近的一项贡献包括引入了MemoSen数据集。然而,所获得的准确率明显较低,并且数据集存在不平衡分布的问题。在这项研究中,我们采用了一种使用ResNet50和BanglishBERT的多模态方法,并取得了0.71的加权F1分数,与单模态方法进行了比较,并使用可解释人工智能(XAI)技术解释了模型的行为。

🔬 方法详解

问题定义:本文旨在解决孟加拉语表情包情感分析问题。现有方法在处理低资源语言的表情包时,面临数据集稀缺、数据不平衡以及模型准确率低等挑战。特别是,现有的MemoSen数据集虽然是针对孟加拉语表情包情感分析的尝试,但其准确率较低,且数据分布不平衡,限制了模型的性能。

核心思路:本文的核心思路是利用多模态信息融合,结合图像和文本特征进行情感分析。表情包的情感表达往往依赖于图像和文本的结合,因此同时考虑这两种模态的信息能够更准确地捕捉表情包的情感。此外,通过使用预训练模型(ResNet50和BanglishBERT),可以有效利用已有的知识,提高模型在低资源语言上的泛化能力。

技术框架:整体框架包含两个主要模块:图像特征提取模块和文本特征提取模块。图像特征提取模块使用预训练的ResNet50模型,对表情包图像进行特征提取。文本特征提取模块使用BanglishBERT模型,对表情包文本进行特征提取。然后,将提取的图像和文本特征进行融合,输入到分类器中进行情感分类。

关键创新:本文的关键创新在于将ResNet50和BanglishBERT结合应用于孟加拉语表情包情感分析,并利用可解释人工智能(XAI)技术解释模型的行为。这种多模态融合方法能够更全面地捕捉表情包的情感信息,而XAI技术则有助于理解模型做出决策的原因,提高模型的可信度。

关键设计:ResNet50使用ImageNet预训练权重进行初始化,并进行微调以适应表情包图像的特征。BanglishBERT使用孟加拉语和英语混合语料库进行预训练,能够有效处理孟加拉语表情包中常见的Banglish(孟加拉语和英语混合)文本。特征融合采用简单的拼接方式,将图像和文本特征向量连接起来。分类器采用全连接层,并使用交叉熵损失函数进行训练。

📊 实验亮点

实验结果表明,该方法在孟加拉语表情包情感分析任务上取得了显著的性能提升,加权F1分数达到0.71。相较于单模态方法,多模态方法能够更有效地捕捉表情包的情感信息。此外,通过XAI技术,可以深入了解模型如何利用图像和文本特征进行情感判断。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、舆情分析、个性化推荐等领域。通过自动识别表情包的情感倾向,可以帮助平台过滤不良信息,了解用户情绪,并提供更精准的内容推荐服务。未来,该技术还可扩展到其他低资源语言的表情包情感分析。

📄 摘要(原文)

Memes have become a distinctive and effective form of communication in the digital era, attracting online communities and cutting across cultural barriers. Even though memes are frequently linked with humor, they have an amazing capacity to convey a wide range of emotions, including happiness, sarcasm, frustration, and more. Understanding and interpreting the sentiment underlying memes has become crucial in the age of information. Previous research has explored text-based, image-based, and multimodal approaches, leading to the development of models like CAPSAN and PromptHate for detecting various meme categories. However, the study of low-resource languages like Bengali memes remains scarce, with limited availability of publicly accessible datasets. A recent contribution includes the introduction of the MemoSen dataset. However, the achieved accuracy is notably low, and the dataset suffers from imbalanced distribution. In this study, we employed a multimodal approach using ResNet50 and BanglishBERT and achieved a satisfactory result of 0.71 weighted F1-score, performed comparison with unimodal approaches, and interpreted behaviors of the models using explainable artificial intelligence (XAI) techniques.