JobArabi: An Arabic Corpus and Analysis of Job Announcements from Social Media
作者: Wajdi Zaghouani, Shimaa Amer Ibrahim, Mabrouka Bessghaier, Houda Bouamor
分类: cs.CL
发布日期: 2026-05-20
备注: Accepted at LREC 2026 Main Conference
💡 一句话要点
JobArabi:构建并分析来自社交媒体的阿拉伯语招聘信息语料库
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语 招聘信息 语料库 社交媒体 自然语言处理
📋 核心要点
- 现有研究缺乏大规模阿拉伯语招聘信息数据集,限制了对阿拉伯语地区就业市场动态的深入理解。
- JobArabi通过语言学驱动的查询框架,从社交媒体收集大规模阿拉伯语招聘信息,构建了包含丰富元数据的语料库。
- 定量分析揭示了在线招聘中性别化语言、区域差异和情感框架等社会语言学模式,验证了语料库的价值。
📝 摘要(中文)
本文介绍了JobArabi,一个大规模的阿拉伯语招聘信息语料库,该语料库收集自2024年1月至2025年10月期间的社交媒体。该数据集包含来自X平台的20528个公开帖子,涵盖了阿拉伯语在线社区两年多的就业相关讨论。该语料库的构建采用了一种语言学驱动的查询框架,覆盖了21个阿拉伯语关键词族,这些关键词族反映了招聘语言中性别化、复数、正式和方言表达。最终的数据集包括来自机构、商业和个人账户的帖子,并提供时间戳、互动指标和地理位置等元数据(如果可用),从而能够对就业讨论进行时间和区域分析。定量分析揭示了在线招聘中的若干社会语言学模式,包括性别化招聘语言的持续存在、职业需求的区域差异以及招聘信息的的情感框架。这些发现突显了阿拉伯语社交媒体作为研究劳动力市场沟通和语言变化的资源的潜力。JobArabi语料库以及文档和收集脚本将被发布,以支持阿拉伯语自然语言处理、计算社会科学和数字劳动研究。
🔬 方法详解
问题定义:现有方法缺乏对阿拉伯语社交媒体招聘信息的系统性收集和分析。现有的阿拉伯语语料库通常规模较小,或者没有专门针对招聘领域,无法有效支持对阿拉伯语地区就业市场动态的研究。因此,需要构建一个大规模、高质量的阿拉伯语招聘信息语料库,并对其进行深入分析,以了解该地区的就业趋势和社会语言学模式。
核心思路:论文的核心思路是利用语言学知识,构建一个全面的查询框架,从社交媒体平台(如X)上抓取相关的阿拉伯语招聘信息。通过覆盖多种阿拉伯语方言、性别化表达和正式/非正式用语,确保语料库的代表性和多样性。同时,收集帖子的元数据,如时间戳、地理位置和互动指标,以便进行时间和区域分析。
技术框架:JobArabi的构建流程主要包括以下几个阶段: 1. 关键词选择:基于语言学知识,选择21个阿拉伯语关键词族,涵盖招聘相关的各种表达方式。 2. 数据收集:使用选定的关键词,从X平台抓取公开的招聘信息帖子。 3. 数据清洗和预处理:对收集到的数据进行清洗,去除重复和无效的帖子,并进行必要的预处理,如分词和词性标注。 4. 元数据提取:提取帖子的元数据,如时间戳、地理位置和互动指标。 5. 语料库构建:将清洗后的数据和元数据整合到JobArabi语料库中。
关键创新:该论文的关键创新在于其语言学驱动的查询框架,该框架能够有效地覆盖阿拉伯语招聘信息中的各种表达方式,从而构建一个具有代表性和多样性的语料库。此外,该论文还对语料库进行了深入的定量分析,揭示了在线招聘中的若干社会语言学模式,为研究阿拉伯语地区的就业市场动态提供了新的视角。
关键设计:关键词的选择是构建语料库的关键。论文作者精心挑选了21个阿拉伯语关键词族,这些关键词族涵盖了招聘相关的各种表达方式,包括性别化、复数、正式和方言表达。这种设计确保了语料库能够捕捉到阿拉伯语招聘信息的多样性。
📊 实验亮点
对JobArabi语料库的定量分析揭示了几个重要的发现:性别化招聘语言在阿拉伯语在线招聘中仍然普遍存在;不同地区的职业需求存在显著差异;招聘信息的情感框架对求职者的吸引力有重要影响。这些发现为理解阿拉伯语地区的就业市场动态和社会文化背景提供了新的视角。
🎯 应用场景
JobArabi语料库可应用于多个领域,包括:阿拉伯语自然语言处理(NLP)研究,例如招聘信息分类、信息抽取和情感分析;计算社会科学研究,例如劳动力市场动态分析、社会语言学研究和就业歧视检测;数字劳动研究,例如在线招聘平台分析和零工经济研究。该语料库的发布将促进相关领域的研究进展,并为政策制定者提供有价值的参考。
📄 摘要(原文)
This paper introduces JobArabi, a large-scale corpus of Arabic job announcements collected from social media between January 2024 and October 2025. The dataset contains 20,528 public posts from X and captures more than two years of employment-related discourse across Arabic-speaking online communities. The corpus was compiled using a linguistically informed query framework covering 21 Arabic keyword families that reflect gendered, plural, formal, and dialectal expressions of recruitment language. The resulting dataset includes posts from institutional, commercial, and individual accounts and provides metadata such as timestamps, engagement indicators, and geolocation when available, enabling temporal and regional analysis of employment discourse. Quantitative analysis reveals several sociolinguistic patterns in online recruitment, including the persistence of gendered hiring language, regional variation in occupational demand, and the emotional framing of recruitment messages. These findings highlight the potential of Arabic social media as a resource for studying labor market communication and linguistic change. The JobArabi corpus, together with documentation and collection scripts, will be released to support research in Arabic NLP, computational social science, and digital labor studies.