JobHop: A Large-Scale Dataset of Career Trajectories

📄 arXiv: 2505.07653v2 📥 PDF

作者: Iman Johary, Raphael Romero, Alexandru C. Mara, Tijl De Bie

分类: cs.CL

发布日期: 2025-05-12 (更新: 2025-11-03)


💡 一句话要点

JobHop:发布大规模职业轨迹数据集,助力劳动力市场研究与职业发展预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 职业轨迹 劳动力市场 大型语言模型 数据集 职业标准化

📋 核心要点

  1. 现有劳动力市场研究缺乏全面捕捉真实职业轨迹的数据集,限制了对劳动力市场动态的深入理解。
  2. JobHop数据集利用LLM从非结构化简历中提取结构化职业信息,并标准化为ESCO职业代码,构建大规模职业轨迹数据集。
  3. 该数据集包含丰富的工作经验和职业变迁信息,可用于分析劳动力市场流动性、职业中断影响和预测职业路径。

📝 摘要(中文)

本文介绍JobHop,一个大规模公共数据集,来源于比利时弗兰德斯公共就业服务机构VDAB提供的匿名简历。利用大型语言模型(LLMs)处理非结构化简历数据,提取结构化的职业信息,并通过多标签分类模型将其标准化为标准的ESCO职业代码。该数据集包含超过167万个工作经验,提取自超过36.1万份用户简历,并映射到标准ESCO职业代码,为真实世界的职业变迁提供了宝贵的见解。该数据集支持多种应用,例如分析劳动力市场流动性、工作稳定性以及职业中断对职业变迁的影响。它还支持职业路径预测和其他数据驱动的决策过程。为了说明其潜力,我们探讨了数据集的关键特征,包括工作分布、职业中断和工作变迁,展示了其在推进劳动力市场研究方面的价值。

🔬 方法详解

问题定义:论文旨在解决劳动力市场研究中缺乏大规模、结构化职业轨迹数据集的问题。现有方法依赖于人工收集或小规模调查,成本高昂且覆盖范围有限,难以捕捉真实世界中复杂的职业变迁模式。非结构化的简历数据蕴含丰富的信息,但难以直接利用。

核心思路:论文的核心思路是利用大型语言模型(LLMs)处理非结构化的简历数据,自动提取并结构化职业信息。通过将提取的职业信息映射到标准的ESCO职业代码,实现职业信息的标准化和统一,从而构建大规模、高质量的职业轨迹数据集。

技术框架:JobHop数据集的构建流程主要包括以下几个阶段:1) 数据收集:从VDAB获取匿名简历数据。2) 信息提取:利用LLMs从简历文本中提取工作经历、职位名称、公司名称等信息。3) 职业标准化:使用多标签分类模型将提取的职位名称映射到标准的ESCO职业代码。4) 数据集成:将提取的职业信息按照用户进行分组,构建职业轨迹。

关键创新:该论文的关键创新在于利用LLMs自动处理非结构化简历数据,并结合多标签分类模型进行职业标准化,从而高效地构建大规模、高质量的职业轨迹数据集。与传统的手工标注或小规模调查相比,该方法具有更高的效率和更广的覆盖范围。

关键设计:论文中使用了预训练的LLMs进行信息提取,并针对职业标准化任务训练了一个多标签分类模型。具体的LLM选择和多标签分类模型的结构、损失函数等技术细节在论文中可能没有详细描述,属于未知信息。ESCO职业代码的选择是关键设计,保证了职业信息的标准化和可比性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JobHop数据集包含超过167万个工作经验,提取自超过36.1万份用户简历,并映射到标准ESCO职业代码。通过对数据集的分析,论文展示了劳动力市场的关键特征,例如工作分布、职业中断和工作变迁,验证了数据集的价值。具体的性能数据,例如信息提取的准确率、职业标准化的精度等,在摘要中没有提及,属于未知信息。

🎯 应用场景

JobHop数据集可广泛应用于劳动力市场研究、职业发展规划、人才招聘等领域。研究人员可以利用该数据集分析劳动力市场流动性、工作稳定性、职业中断的影响,以及不同职业之间的关联。求职者可以利用该数据集了解不同职业的职业发展路径,制定更合理的职业规划。企业可以利用该数据集了解人才流动趋势,优化招聘策略。

📄 摘要(原文)

Understanding labor market dynamics is essential for policymakers, employers, and job seekers. However, comprehensive datasets that capture real-world career trajectories are scarce. In this paper, we introduce JobHop, a large-scale public dataset derived from anonymized resumes provided by VDAB, the public employment service in Flanders, Belgium. Utilizing Large Language Models (LLMs), we process unstructured resume data to extract structured career information, which is then normalized to standardized ESCO occupation codes using a multi-label classification model. This results in a rich dataset of over 1.67 million work experiences, extracted from and grouped into more than 361,000 user resumes and mapped to standardized ESCO occupation codes, offering valuable insights into real-world occupational transitions. This dataset enables diverse applications, such as analyzing labor market mobility, job stability, and the effects of career breaks on occupational transitions. It also supports career path prediction and other data-driven decision-making processes. To illustrate its potential, we explore key dataset characteristics, including job distributions, career breaks, and job transitions, demonstrating its value for advancing labor market research.