MultiProSE: A Multi-label Arabic Dataset for Propaganda, Sentiment, and Emotion Detection
作者: Lubna Al-Henaki, Hend Al-Khalifa, Abdulmalik Al-Salman, Hajar Alqubayshi, Hind Al-Twailay, Gheeda Alghamdi, Hawra Aljasim
分类: cs.CL
发布日期: 2025-02-12
备注: 12 pages, 3 figuers, 4 tabels
💡 一句话要点
构建多标签阿拉伯语数据集MultiProSE,用于宣传、情感和情绪检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语 宣传检测 情感分析 情绪识别 多标签分类 自然语言处理 数据集构建
📋 核心要点
- 现有阿拉伯语宣传检测资源极度匮乏,无法满足互联网上第四大语言的需求。
- 构建MultiProSE数据集,通过扩展ArPro数据集,增加情感和情绪标注,提供更全面的信息。
- 利用GPT-4o-mini和BERT等模型建立基线,为未来研究提供参考,并公开数据集及代码。
📝 摘要(中文)
本文介绍了一个用于多标签宣传、情感和情绪检测的首个阿拉伯语数据集(MultiProSE)。该数据集是现有阿拉伯语宣传数据集ArPro的开源扩展,增加了每个文本的情感和情绪标注。MultiProSE包含8000篇带标注的新闻文章,是迄今为止最大的宣传数据集。针对每个任务,本文使用大型语言模型(LLMs),如GPT-4o-mini,以及预训练语言模型(PLMs),包括三个基于BERT的模型,开发了多个基线。该数据集、标注指南和源代码已全部公开发布,以促进未来阿拉伯语语言模型的研究和开发,并有助于更深入地理解新闻媒体中各种观点维度之间的相互作用。
🔬 方法详解
问题定义:现有阿拉伯语宣传检测资源不足,尤其缺乏同时考虑宣传、情感和情绪的多标签数据集。这限制了对阿拉伯语新闻媒体中复杂观点交互的理解和分析。现有方法难以充分捕捉文本中细微的情感和宣传倾向。
核心思路:通过扩展现有的ArPro数据集,并增加情感和情绪标注,构建一个更大、更全面的MultiProSE数据集。这种多标签标注方式能够更准确地反映文本中存在的多种观点维度,从而提升宣传、情感和情绪检测的性能。
技术框架:MultiProSE数据集的构建包括以下几个主要阶段:1) 在现有ArPro数据集的基础上,选择新闻文章。2) 对每篇文章进行情感和情绪标注,形成多标签数据集。3) 使用大型语言模型(LLMs)和预训练语言模型(PLMs)建立基线模型。4) 公开发布数据集、标注指南和源代码。
关键创新:MultiProSE数据集是首个针对阿拉伯语的多标签宣传、情感和情绪检测数据集。它通过整合多种观点维度,为研究人员提供了一个更丰富、更全面的资源。此外,数据集的规模(8000篇新闻文章)也使其成为迄今为止最大的阿拉伯语宣传数据集。
关键设计:数据集的情感和情绪标注采用多标签方式,允许一篇文章同时具有多种情感和宣传倾向。基线模型采用了GPT-4o-mini和BERT等先进的语言模型,并针对阿拉伯语进行了优化。标注指南的制定确保了标注的一致性和准确性。数据集以开放源代码的形式发布,方便研究人员使用和扩展。
📊 实验亮点
MultiProSE数据集包含8000篇带标注的新闻文章,是目前最大的阿拉伯语宣传数据集。论文使用GPT-4o-mini和BERT等模型建立了基线,为未来的研究提供了参考。数据集和相关资源已公开发布,为阿拉伯语自然语言处理研究提供了宝贵资源。
🎯 应用场景
该研究成果可应用于舆情监控、虚假信息检测、新闻内容分析等领域。通过分析新闻文本中的宣传、情感和情绪,可以帮助识别潜在的操纵行为,提高公众对媒体信息的辨别能力,并为新闻媒体提供更客观、公正的内容分析工具。未来,该数据集可用于训练更强大的阿拉伯语自然语言处理模型,提升相关任务的性能。
📄 摘要(原文)
Propaganda is a form of persuasion that has been used throughout history with the intention goal of influencing people's opinions through rhetorical and psychological persuasion techniques for determined ends. Although Arabic ranked as the fourth most-used language on the internet, resources for propaganda detection in languages other than English, especially Arabic, remain extremely limited. To address this gap, the first Arabic dataset for Multi-label Propaganda, Sentiment, and Emotion (MultiProSE) has been introduced. MultiProSE is an open-source extension of the existing Arabic propaganda dataset, ArPro, with the addition of sentiment and emotion annotations for each text. This dataset comprises 8,000 annotated news articles, which is the largest propaganda dataset to date. For each task, several baselines have been developed using large language models (LLMs), such as GPT-4o-mini, and pre-trained language models (PLMs), including three BERT-based models. The dataset, annotation guidelines, and source code are all publicly released to facilitate future research and development in Arabic language models and contribute to a deeper understanding of how various opinion dimensions interact in news media1.