Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language
作者: Fatema Tuj Johora Faria, Mukaffi Bin Moin, Md. Mahfuzur Rahman, Md Morshed Alam Shanto, Asif Iftekher Fahim, Md. Moinul Hoque
分类: cs.CL
发布日期: 2024-09-14
备注: Accepted for publication in "18th International Conference on Information Technology and Applications (ICITA 2024)"
💡 一句话要点
提出Uddessho数据集,用于低资源孟加拉语多模态作者意图分类。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图分类 多模态学习 低资源语言 孟加拉语 社交媒体 作者身份识别 文本图像融合
📋 核心要点
- 现有方法在孟加拉语等低资源语言的社交媒体意图分类中,难以有效结合作者特征。
- 论文提出MABIC框架,利用文本和图像等多模态数据,提升对作者意图的理解和分类准确率。
- 实验结果表明,多模态方法相比单模态方法,在孟加拉语意图分类任务上准确率提升了11.66%。
📝 摘要(中文)
本文针对孟加拉语中的意图分类问题,提出了一种创新方法,重点关注社交媒体帖子中个人分享的想法和观点。该方法利用多模态数据,特别强调作者身份识别,旨在理解文本内容背后的潜在目的,尤其是在社交媒体上各种用户生成的帖子中。现有方法在孟加拉语等低资源语言中面临挑战,尤其是在作者特征与意图密切相关时。为了解决这个问题,我们提出了基于多模态的作者孟加拉语意图分类(MABIC)框架,利用文本和图像来更深入地了解所传达的意图。我们创建了一个名为“Uddessho”的数据集,包含来自社交媒体的3,048个实例。我们的方法包括两种分类文本意图和多模态作者意图的方法,结合了早期融合和晚期融合技术。在我们的实验中,单模态方法在解释孟加拉语文本意图方面的准确率为64.53%。相比之下,我们的多模态方法明显优于传统的单模态方法,准确率达到76.19%,提升了11.66%。据我们所知,这是第一个针对低资源孟加拉语社交媒体帖子的基于多模态的作者意图分类研究。
🔬 方法详解
问题定义:论文旨在解决低资源孟加拉语社交媒体帖子中作者意图分类的问题。现有方法在处理这种低资源语言时,难以有效利用作者身份和多模态信息,导致意图分类的准确率较低。尤其是在社交媒体环境中,作者的个人特征和表达方式与他们的意图密切相关,而现有方法无法充分捕捉这种关联性。
核心思路:论文的核心思路是利用多模态信息(文本和图像)来更准确地识别作者的意图。通过结合文本内容和图像信息,模型可以更全面地理解作者的表达,从而提高意图分类的准确率。此外,论文还强调了作者身份的重要性,并将其纳入到模型中,以更好地捕捉作者特征与意图之间的关系。
技术框架:论文提出了Multimodal-based Author Bangla Intent Classification (MABIC)框架。该框架包含数据收集与预处理、特征提取、多模态融合和意图分类等主要阶段。首先,从社交媒体收集孟加拉语帖子,并进行文本和图像的预处理。然后,从文本和图像中提取特征,例如文本的词嵌入和图像的视觉特征。接下来,使用早期融合或晚期融合技术将文本和图像特征进行融合。最后,使用分类器对融合后的特征进行意图分类。
关键创新:论文的关键创新点在于首次将多模态信息和作者身份信息结合起来,用于低资源孟加拉语社交媒体帖子的意图分类。通过这种方式,模型可以更全面地理解作者的表达,从而提高意图分类的准确率。此外,论文还提出了一个名为“Uddessho”的新的孟加拉语数据集,为该领域的研究提供了宝贵的数据资源。
关键设计:论文采用了两种多模态融合方法:早期融合和晚期融合。在早期融合中,文本和图像特征在输入分类器之前进行融合。在晚期融合中,文本和图像特征分别输入到独立的分类器中,然后将两个分类器的输出进行融合。论文还探索了不同的文本和图像特征提取方法,以及不同的分类器,例如支持向量机和神经网络。具体的参数设置和网络结构在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的多模态方法在孟加拉语意图分类任务上取得了显著的性能提升。具体而言,多模态方法的准确率达到了76.19%,相比单模态方法(64.53%)提升了11.66%。这一结果验证了多模态信息对于意图分类的有效性,并表明该方法在低资源语言环境下具有良好的应用前景。
🎯 应用场景
该研究成果可应用于社交媒体内容审核、舆情分析、个性化推荐等领域。通过准确识别用户在社交媒体上表达的意图,可以有效过滤不良信息,及时发现潜在的社会风险,并为用户提供更精准的内容推荐服务。此外,该研究对于其他低资源语言的意图分类研究也具有一定的借鉴意义。
📄 摘要(原文)
With the increasing popularity of daily information sharing and acquisition on the Internet, this paper introduces an innovative approach for intent classification in Bangla language, focusing on social media posts where individuals share their thoughts and opinions. The proposed method leverages multimodal data with particular emphasis on authorship identification, aiming to understand the underlying purpose behind textual content, especially in the context of varied user-generated posts on social media. Current methods often face challenges in low-resource languages like Bangla, particularly when author traits intricately link with intent, as observed in social media posts. To address this, we present the Multimodal-based Author Bangla Intent Classification (MABIC) framework, utilizing text and images to gain deeper insights into the conveyed intentions. We have created a dataset named "Uddessho," comprising 3,048 instances sourced from social media. Our methodology comprises two approaches for classifying textual intent and multimodal author intent, incorporating early fusion and late fusion techniques. In our experiments, the unimodal approach achieved an accuracy of 64.53% in interpreting Bangla textual intent. In contrast, our multimodal approach significantly outperformed traditional unimodal methods, achieving an accuracy of 76.19%. This represents an improvement of 11.66%. To our best knowledge, this is the first research work on multimodal-based author intent classification for low-resource Bangla language social media posts.