ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics

📄 arXiv: 2602.13870v2 📥 PDF

作者: Hend Al-Khalifa, Nadia Ghezaiel, Maria Bounnit, Hend Hamed Alhazmi, Noof Abdullah Alfear, Reem Fahad Alqifari, Ameera Masoud Almasoud, Sharefah Al-Ghamdi

分类: cs.CL

发布日期: 2026-02-14 (更新: 2026-02-21)

备注: Paper accepted @ The Fifteenth biennial Language Resources and Evaluation Conference (LREC2026)


💡 一句话要点

提出ADAB:一个大规模阿拉伯语礼貌基准数据集,用于计算社会语用学研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语NLP 礼貌检测 社会语用学 数据集构建 情感分析

📋 核心要点

  1. 现有阿拉伯语礼貌检测资源匮乏,无法充分捕捉阿拉伯语中丰富的礼貌表达。
  2. 构建ADAB数据集,包含来自多个在线平台的阿拉伯语文本,并标注礼貌程度。
  3. 对多种模型进行基准测试,为后续研究提供参考,促进阿拉伯语礼貌NLP发展。

📝 摘要(中文)

文化敏感的自然语言处理系统日益重要,这导致对能够捕捉不同语言中社会语用现象的资源的需求不断增长。然而,尽管阿拉伯语交流中蕴含着丰富而复杂的礼貌表达,但用于礼貌检测的阿拉伯语资源仍未得到充分探索。本文介绍了ADAB(阿拉伯语礼貌数据集),这是一个新的带注释的阿拉伯语数据集,收集自四个在线平台,包括社交媒体、电子商务和客户服务领域,涵盖现代标准阿拉伯语和多种方言(海湾、埃及、黎凡特和马格里布)。该数据集基于阿拉伯语语言传统和语用理论进行注释,产生了三个类别:礼貌、不礼貌和中性。它包含10,000个样本,具有跨16个礼貌类别的语言特征注释,并实现了显著的注释者间一致性(kappa = 0.703)。我们对40种模型配置进行了基准测试,包括传统机器学习、基于Transformer的模型和大型语言模型。该数据集旨在支持对具有礼貌意识的阿拉伯语NLP的研究。

🔬 方法详解

问题定义:论文旨在解决阿拉伯语自然语言处理中缺乏大规模、高质量礼貌程度标注数据集的问题。现有方法无法充分捕捉阿拉伯语中复杂的礼貌表达,阻碍了相关技术的发展。

核心思路:论文的核心思路是构建一个包含多种阿拉伯语方言和场景的大规模数据集,并基于阿拉伯语语言传统和语用理论进行细致的礼貌程度标注,从而为后续研究提供可靠的基准。

技术框架:ADAB数据集的构建流程主要包括以下几个阶段:1) 数据收集:从社交媒体、电子商务和客户服务等四个在线平台收集阿拉伯语文本。2) 数据标注:由专家团队基于阿拉伯语语言传统和语用理论,将文本标注为“礼貌”、“不礼貌”或“中性”三种类别,并标注16种礼貌相关的语言特征。3) 数据验证:计算注释者间一致性(Kappa系数),确保标注质量。4) 模型基准测试:使用传统机器学习、Transformer模型和大型语言模型对数据集进行基准测试。

关键创新:该论文的关键创新在于构建了一个大规模、多方言的阿拉伯语礼貌程度标注数据集,并提供了详细的语言特征标注。此外,该数据集的标注标准基于阿拉伯语语言传统和语用理论,更符合阿拉伯语的文化背景。

关键设计:数据集包含10,000个样本,涵盖现代标准阿拉伯语和海湾、埃及、黎凡特和马格里布等多种方言。标注过程中,使用了Kappa系数来评估注释者间一致性,并达到了0.703的显著水平。基准测试中,使用了包括BERT、AraBERT等在内的多种预训练语言模型。

📊 实验亮点

ADAB数据集包含10,000个样本,涵盖多种阿拉伯语方言,并实现了显著的注释者间一致性(kappa = 0.703)。论文对40种模型配置进行了基准测试,为后续研究提供了有价值的参考。该数据集的发布将极大地促进阿拉伯语礼貌NLP领域的研究。

🎯 应用场景

该研究成果可应用于情感分析、客户服务、社交媒体监控等领域,提升阿拉伯语自然语言处理系统的文化敏感性和用户体验。未来可用于开发更智能的聊天机器人、更有效的舆情分析工具,以及更人性化的在线交流平台。

📄 摘要(原文)

The growing importance of culturally-aware natural language processing systems has led to an increasing demand for resources that capture sociopragmatic phenomena across diverse languages. Nevertheless, Arabic-language resources for politeness detection remain under-explored, despite the rich and complex politeness expressions embedded in Arabic communication. In this paper, we introduce ADAB (Arabic Politeness Dataset), a new annotated Arabic dataset collected from four online platforms, including social media, e-commerce, and customer service domains, covering Modern Standard Arabic and multiple dialects (Gulf, Egyptian, Levantine, and Maghrebi). The dataset was annotated based on Arabic linguistic traditions and pragmatic theory, resulting in three classes: polite, impolite, and neutral. It contains 10,000 samples with linguistic feature annotations across 16 politeness categories and achieves substantial inter-annotator agreement (kappa = 0.703). We benchmark 40 model configurations, including traditional machine learning, transformer-based models, and large language models. The dataset aims to support research on politeness-aware Arabic NLP.