Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions

📄 arXiv: 2507.02087v2 📥 PDF

作者: Eitan Anzenberg, Arunava Samajpati, Sivasankaran Chandrasekar, Varun Kacholia

分类: cs.LG, cs.CL, cs.CY

发布日期: 2025-07-02 (更新: 2025-07-28)

备注: 10 pages, 2 figures, 2 tables. Submitted to NeurIPS 2025


💡 一句话要点

评估LLM在招聘决策中的潜力和缺陷,强调领域专用模型的重要性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 招聘算法 公平性 算法偏见 领域专用模型

📋 核心要点

  1. 现有通用LLM在招聘场景中应用,面临准确性和公平性挑战,可能放大社会偏见。
  2. 论文提出领域专用招聘模型(Match Score),通过监督学习缓解LLM的固有偏见。
  3. 实验表明,Match Score在准确性(AUC 0.85 vs 0.77)和公平性方面均优于通用LLM。

📝 摘要(中文)

在招聘中使用大型语言模型(LLM)有望简化候选人筛选流程,但也引发了关于准确性和算法偏差的严重担忧,尤其是在缺乏充分保障措施的情况下。本文对来自OpenAI、Anthropic、Google、Meta和Deepseek等公司的多个最先进的基础LLM进行了基准测试,并将其与我们专有的领域特定招聘模型(Match Score)在求职者匹配方面进行了比较。我们评估了每个模型的预测准确性(ROC AUC、精确率-召回率AUC、F1分数)和公平性(跨性别、种族和交叉亚组的截止分析的影响比率)。对大约10,000个真实候选人-职位配对数据集的实验表明,Match Score在准确性方面优于通用LLM(ROC AUC 0.85 vs 0.77),并在不同人口群体中实现了明显更公平的结果。值得注意的是,Match Score实现了0.957的最小种族影响比率(接近均等),而最佳LLM为0.809或更低(交叉亚组分别为0.906 vs 0.773)。我们讨论了为什么预训练偏差可能导致缺乏充分保障措施的LLM在招聘场景中传播社会偏见,而定制的监督模型可以更有效地缓解这些偏见。我们的研究结果强调了在招聘等高风险领域部署AI时,领域特定建模和偏差审计的重要性,并警告不要在没有广泛的公平性保障措施的情况下,依赖现成的LLM来执行此类任务。此外,我们通过经验证据表明,在招聘中选择准确性和公平性之间不应存在二分法:一个精心设计的算法可以同时实现招聘的准确性和结果的公平性。

🔬 方法详解

问题定义:论文旨在评估通用大型语言模型(LLM)在招聘场景中的适用性,并解决其在准确性和公平性方面存在的不足。现有方法,即直接使用通用LLM进行候选人筛选,容易受到预训练数据中存在的社会偏见的影响,导致对不同人口群体的不公平待遇。此外,通用LLM可能无法充分捕捉特定行业的招聘需求,从而影响准确性。

核心思路:论文的核心思路是采用领域特定的监督学习方法,构建一个专门针对招聘场景的模型(Match Score)。通过在真实的招聘数据上进行训练,该模型能够学习到更准确的候选人-职位匹配规则,并有效缓解通用LLM中存在的偏见。这种方法的核心在于利用监督学习的优势,将模型的学习目标与招聘的实际需求对齐,从而提高准确性和公平性。

技术框架:整体框架包括数据收集与预处理、模型训练与评估、以及公平性分析三个主要阶段。首先,收集包含候选人信息和职位描述的真实招聘数据,并进行清洗和特征工程。然后,使用监督学习方法训练Match Score模型,并使用ROC AUC、精确率-召回率AUC和F1分数等指标评估其准确性。最后,通过计算不同人口群体(性别、种族等)的影响比率,评估模型的公平性。

关键创新:最重要的技术创新点在于领域专用模型的构建和公平性保障机制的设计。与直接使用通用LLM不同,Match Score模型是专门针对招聘场景进行训练的,能够更好地捕捉特定行业的招聘需求。此外,论文还提出了一种基于影响比率的公平性评估方法,能够有效识别和缓解模型中存在的偏见。

关键设计:论文中没有详细描述Match Score模型的具体网络结构或损失函数。但是,可以推断,该模型可能采用了某种形式的神经网络,并使用了交叉熵损失函数进行训练。关键的设计在于特征工程,即如何将候选人信息和职位描述转化为模型可以理解的数值向量。此外,公平性保障机制的设计也是一个关键的技术细节,可能涉及到对训练数据的加权或对模型输出的后处理。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Match Score在准确性(ROC AUC 0.85)和公平性方面均优于通用LLM(ROC AUC 0.77)。Match Score实现了0.957的最小种族影响比率,而最佳LLM为0.809或更低。这表明领域专用模型在招聘场景中具有显著优势,能够同时提升准确性和公平性。

🎯 应用场景

该研究成果可应用于企业招聘流程优化,提升候选人筛选效率和公平性。通过部署领域专用模型,企业可以减少算法偏见,实现更公正的招聘结果,提升雇主品牌形象。未来,该方法还可扩展到其他高风险决策领域,如信贷评估、教育录取等。

📄 摘要(原文)

The use of large language models (LLMs) in hiring promises to streamline candidate screening, but it also raises serious concerns regarding accuracy and algorithmic bias where sufficient safeguards are not in place. In this work, we benchmark several state-of-the-art foundational LLMs - including models from OpenAI, Anthropic, Google, Meta, and Deepseek, and compare them with our proprietary domain-specific hiring model (Match Score) for job candidate matching. We evaluate each model's predictive accuracy (ROC AUC, Precision-Recall AUC, F1-score) and fairness (impact ratio of cut-off analysis across declared gender, race, and intersectional subgroups). Our experiments on a dataset of roughly 10,000 real-world recent candidate-job pairs show that Match Score outperforms the general-purpose LLMs on accuracy (ROC AUC 0.85 vs 0.77) and achieves significantly more equitable outcomes across demographic groups. Notably, Match Score attains a minimum race-wise impact ratio of 0.957 (near-parity), versus 0.809 or lower for the best LLMs, (0.906 vs 0.773 for the intersectionals, respectively). We discuss why pretraining biases may cause LLMs with insufficient safeguards to propagate societal biases in hiring scenarios, whereas a bespoke supervised model can more effectively mitigate these biases. Our findings highlight the importance of domain-specific modeling and bias auditing when deploying AI in high-stakes domains such as hiring, and caution against relying on off-the-shelf LLMs for such tasks without extensive fairness safeguards. Furthermore, we show with empirical evidence that there shouldn't be a dichotomy between choosing accuracy and fairness in hiring: a well-designed algorithm can achieve both accuracy in hiring and fairness in outcomes.