Efficient Text Encoders for Labor Market Analysis

📄 arXiv: 2505.24640v1 📥 PDF

作者: Jens-Joris Decorte, Jeroen Van Hautte, Chris Develder, Thomas Demeester

分类: cs.CL, cs.AI

发布日期: 2025-05-30

备注: This work has been submitted to the IEEE for possible publication

期刊: IEEE Access, vol. 0, Jul. 2025

DOI: 10.1109/ACCESS.2025.3589147


💡 一句话要点

提出ConTeXT-match,一种高效文本编码器,用于劳动力市场分析中的技能提取。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 技能提取 对比学习 文本编码器 劳动力市场分析 双编码器 职位名称规范化 Token级别注意力 极端多标签分类

📋 核心要点

  1. 现有技能提取方法依赖大型语言模型,计算成本高昂且速度慢,限制了其在大规模劳动力市场分析中的应用。
  2. ConTeXT-match采用对比学习和token级别注意力机制,构建轻量级双编码器模型,提升技能提取效率和性能。
  3. Skill-XL基准数据集提供详尽的句子级技能标注,JobBERT V2利用提取的技能改进职位名称规范化,实验验证了模型的有效性。

📝 摘要(中文)

劳动力市场分析依赖于从招聘广告中提取信息,这些广告提供了关于职位名称和相应技能要求的重要但非结构化信息。虽然最先进的技能提取方法表现出色,但它们依赖于计算成本高且速度慢的大型语言模型(LLM)。本文提出了一种新的对比学习方法 extbf{ConTeXT-match},它具有token级别的注意力机制,非常适合技能分类的极端多标签分类任务。 extbf{ConTeXT-match}显著提高了技能提取的效率和性能,使用轻量级的双编码器模型实现了最先进的结果。为了支持稳健的评估,我们引入了一个新的基准 extbf{Skill-XL},它具有详尽的句子级技能注释,明确解决了大型标签空间中的冗余问题。最后,我们提出了 extbf{JobBERT V2},一种改进的职位名称规范化模型,它利用提取的技能来生成高质量的职位名称表示。实验表明,我们的模型高效、准确且可扩展,使其成为大规模、实时劳动力市场分析的理想选择。

🔬 方法详解

问题定义:论文旨在解决劳动力市场分析中,现有技能提取方法依赖大型语言模型导致计算成本高、速度慢的问题。这些方法难以满足大规模、实时分析的需求,并且标签空间存在冗余,影响模型性能。

核心思路:论文的核心思路是设计一种高效的文本编码器,通过对比学习和token级别注意力机制,在保证性能的同时显著降低计算成本。通过构建轻量级的双编码器模型,实现快速且准确的技能提取。

技术框架:整体框架包含三个主要部分:1) ConTeXT-match模型,用于技能提取;2) Skill-XL基准数据集,用于模型评估;3) JobBERT V2模型,用于职位名称规范化。ConTeXT-match模型是核心,它接收职位描述文本作为输入,输出对应的技能标签。Skill-XL数据集用于评估ConTeXT-match的性能,JobBERT V2利用提取的技能来改进职位名称的表示。

关键创新:最重要的创新点在于ConTeXT-match模型的设计,它采用对比学习方法,将职位描述文本和对应的技能标签嵌入到同一向量空间中,并通过token级别的注意力机制,关注文本中与技能相关的关键信息。与现有方法相比,ConTeXT-match不需要大型语言模型,因此计算效率更高。

关键设计:ConTeXT-match模型使用双编码器结构,一个编码器用于职位描述文本,另一个编码器用于技能标签。损失函数采用对比损失,目标是使相似的职位描述和技能标签在向量空间中更接近,而不相似的则更远离。Token级别的注意力机制通过计算每个token的重要性权重,使模型能够更好地关注与技能相关的关键信息。Skill-XL数据集包含详尽的句子级技能标注,解决了标签空间冗余问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConTeXT-match模型在技能提取任务上取得了最先进的结果,同时显著提高了效率。与依赖大型语言模型的现有方法相比,ConTeXT-match使用轻量级模型,在保证性能的同时降低了计算成本。Skill-XL数据集的引入为技能提取任务提供了更可靠的评估基准。JobBERT V2模型利用提取的技能改进了职位名称规范化,进一步验证了技能提取的有效性。

🎯 应用场景

该研究成果可应用于大规模劳动力市场分析,例如实时监测技能需求变化、优化招聘流程、为求职者提供个性化技能推荐等。通过高效准确地提取职位描述中的技能信息,可以更好地了解劳动力市场的动态,为政策制定者、企业和求职者提供有价值的参考。

📄 摘要(原文)

Labor market analysis relies on extracting insights from job advertisements, which provide valuable yet unstructured information on job titles and corresponding skill requirements. While state-of-the-art methods for skill extraction achieve strong performance, they depend on large language models (LLMs), which are computationally expensive and slow. In this paper, we propose \textbf{ConTeXT-match}, a novel contrastive learning approach with token-level attention that is well-suited for the extreme multi-label classification task of skill classification. \textbf{ConTeXT-match} significantly improves skill extraction efficiency and performance, achieving state-of-the-art results with a lightweight bi-encoder model. To support robust evaluation, we introduce \textbf{Skill-XL}, a new benchmark with exhaustive, sentence-level skill annotations that explicitly address the redundancy in the large label space. Finally, we present \textbf{JobBERT V2}, an improved job title normalization model that leverages extracted skills to produce high-quality job title representations. Experiments demonstrate that our models are efficient, accurate, and scalable, making them ideal for large-scale, real-time labor market analysis.