Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management

📄 arXiv: 2507.13275v1 📥 PDF

作者: Luis Gasco, Hermenegildo Fabregat, Laura García-Sardiña, Paula Estrella, Daniel Deniz, Alvaro Rodrigo, Rabih Zbib

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-07-17


💡 一句话要点

TalentCLEF 2025:首个面向人力资本管理的技能与职位智能评测基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人力资本管理 技能智能 职位匹配 自然语言处理 多语言 评估基准 对比学习 性别偏见

📋 核心要点

  1. 现有的人力资本管理系统在人才招聘、技能提升等方面面临缺乏可靠公共基准和公平模型的问题。
  2. TalentCLEF 2025通过构建多语言职位匹配和职位技能预测任务,提供公开的评估基准。
  3. 实验结果表明,基于多语言编码器模型和对比学习的训练策略对性能提升至关重要,优于单纯增大模型规模。

📝 摘要(中文)

自然语言处理和大型语言模型的进步正在推动人力资本管理的重大变革,人们越来越关注构建基于语言技术的智能系统,用于人才招聘、技能提升策略和劳动力规划。然而,这些技术的采用和进步关键取决于可靠和公平模型的开发,以及在公共数据和开放基准上的适当评估,而这些在目前该领域尚不可用。为了解决这一差距,我们推出了TalentCLEF 2025,这是第一个专注于技能和职位智能的评估活动。该实验包括两个任务:任务A - 多语言职位匹配,涵盖英语、西班牙语、德语和中文;任务B - 基于职位预测技能,使用英语。这两个语料库都来自真实的职位申请,经过仔细匿名化和手动注释,以反映真实世界劳动力市场数据的复杂性和多样性,包括语言变异性和性别标记的表达。评估包括单语和跨语场景,并涵盖了性别偏见的评估。TalentCLEF吸引了76个注册团队,提交了超过280份作品。大多数系统依赖于使用多语言编码器模型构建的信息检索技术,这些模型通过对比学习进行微调,其中一些系统还结合了大型语言模型进行数据增强或重新排序。结果表明,训练策略比模型本身的大小更重要。TalentCLEF提供了该领域的第一个公共基准,并鼓励开发稳健、公平和可转移的劳动力市场语言技术。

🔬 方法详解

问题定义:论文旨在解决人力资本管理领域缺乏公开、可靠的技能和职位智能评估基准的问题。现有方法依赖于私有数据,缺乏透明度和可比性,难以评估模型的公平性和泛化能力。

核心思路:论文的核心思路是构建一个公开的、多语言的、包含真实职位申请数据的评估基准TalentCLEF 2025。通过提供标准化的任务和评估指标,促进该领域的研究和发展,并鼓励开发更稳健、公平和可迁移的语言技术。

技术框架:TalentCLEF 2025包含两个主要任务:任务A是多语言职位匹配,任务B是基于职位预测技能。两个任务都使用精心匿名化和手动标注的真实职位申请数据。评估包括单语和跨语场景,并考虑了性别偏见。参与者可以使用各种自然语言处理技术来解决这些任务。

关键创新:TalentCLEF 2025的主要创新在于它是第一个专门针对技能和职位智能的公开评估基准。它提供了真实世界的数据,涵盖多种语言和性别偏见,并鼓励开发更公平和可迁移的模型。

关键设计:任务A(多语言职位匹配)需要模型判断两个职位描述是否匹配,评估指标包括准确率、召回率等。任务B(基于职位预测技能)需要模型根据职位描述预测所需的技能,评估指标包括精确率、召回率等。数据集中包含了性别标记的表达,用于评估模型的性别偏见。参与者可以使用对比学习、数据增强、重排序等技术来提高模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TalentCLEF 2025吸引了76个团队参与,提交了超过280份作品。实验结果表明,基于多语言编码器模型和对比学习的训练策略对性能提升至关重要。许多系统还采用了大型语言模型进行数据增强或重排序。结果强调了训练策略的重要性,而非仅仅依赖于模型的大小。

🎯 应用场景

该研究成果可应用于智能招聘系统、职业技能推荐、劳动力市场分析等领域。通过提供更准确的技能和职位匹配,可以提高招聘效率,促进人才流动,并为个人提供更好的职业发展建议。此外,该基准还可以用于评估和减少招聘过程中的性别偏见,促进劳动力市场的公平性。

📄 摘要(原文)

Advances in natural language processing and large language models are driving a major transformation in Human Capital Management, with a growing interest in building smart systems based on language technologies for talent acquisition, upskilling strategies, and workforce planning. However, the adoption and progress of these technologies critically depend on the development of reliable and fair models, properly evaluated on public data and open benchmarks, which have so far been unavailable in this domain. To address this gap, we present TalentCLEF 2025, the first evaluation campaign focused on skill and job title intelligence. The lab consists of two tasks: Task A - Multilingual Job Title Matching, covering English, Spanish, German, and Chinese; and Task B - Job Title-Based Skill Prediction, in English. Both corpora were built from real job applications, carefully anonymized, and manually annotated to reflect the complexity and diversity of real-world labor market data, including linguistic variability and gender-marked expressions. The evaluations included monolingual and cross-lingual scenarios and covered the evaluation of gender bias. TalentCLEF attracted 76 registered teams with more than 280 submissions. Most systems relied on information retrieval techniques built with multilingual encoder-based models fine-tuned with contrastive learning, and several of them incorporated large language models for data augmentation or re-ranking. The results show that the training strategies have a larger effect than the size of the model alone. TalentCLEF provides the first public benchmark in this field and encourages the development of robust, fair, and transferable language technologies for the labor market.