Small Changes, Large Consequences: Analyzing the Allocational Fairness of LLMs in Hiring Contexts
作者: Preethi Seshadri, Hongyu Chen, Sameer Singh, Seraphina Goldfarb-Tarrant
分类: cs.CL
发布日期: 2025-01-08 (更新: 2025-09-04)
💡 一句话要点
分析LLM在招聘场景中的分配公平性:微小变动导致巨大偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 公平性 招聘系统 分配公平 简历总结 应聘者排序 算法偏见 人口统计学扰动
📋 核心要点
- 现有研究对LLM在招聘场景中潜在的不公平性关注不足,尤其是在生成和检索任务中。
- 通过构建合成简历数据集并控制人口统计学扰动,分析LLM在简历总结和应聘者排序任务中的公平性。
- 实验表明,LLM在简历总结和排序任务中存在对种族和性别等人口统计学特征的偏差和敏感性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于招聘等高风险场景,但其在生成和检索设置中产生不公平决策的潜力仍未得到充分研究。本文通过简历总结和应聘者排序这两个反映实际人力资源使用情况的任务,检验了基于LLM的招聘系统的分配公平性。通过构建具有受控扰动的合成简历数据集并策划职位发布,我们研究了模型行为在不同人口群体中是否存在差异。研究结果表明,生成的摘要在种族扰动方面比性别扰动更频繁地表现出有意义的差异。模型还在不同人口群体中表现出非均匀的检索选择模式,并且对性别和种族扰动都表现出较高的排序敏感性。令人惊讶的是,检索模型对人口统计学和非人口统计学变化的敏感性相当,这表明公平性问题可能源于更广泛的模型脆弱性。总的来说,我们的结果表明,基于LLM的招聘系统,尤其是在检索阶段,可能会表现出显著的偏差,从而导致现实世界中的歧视性结果。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在招聘场景中的分配公平性问题。现有方法缺乏对LLM在简历总结和应聘者排序等实际应用中潜在偏见的系统性分析,难以评估LLM是否会因人口统计学特征而产生歧视性结果。
核心思路:论文的核心思路是通过构建一个包含受控人口统计学扰动的合成简历数据集,并结合真实的职位描述,来评估LLM在简历总结和应聘者排序任务中的表现。通过观察模型在不同人口群体上的行为差异,从而揭示其潜在的偏见。
技术框架:该研究主要包含以下几个阶段:1) 构建合成简历数据集,并对简历中的性别和种族信息进行受控扰动;2) 收集真实的职位描述;3) 使用LLM进行简历总结和应聘者排序;4) 分析模型在不同人口群体上的表现差异,评估其分配公平性。
关键创新:该研究的关键创新在于:1) 系统性地研究了LLM在招聘场景中的分配公平性,填补了现有研究的空白;2) 构建了一个包含受控人口统计学扰动的合成简历数据集,为评估LLM的公平性提供了有效工具;3) 揭示了LLM在简历总结和应聘者排序任务中存在的潜在偏见,为改进LLM的公平性提供了重要依据。
关键设计:在构建合成简历数据集时,论文作者精心设计了人口统计学扰动,例如改变姓名、性别代词等,以确保扰动的有效性和可控性。在评估模型性能时,论文作者采用了多种指标,例如检索选择模式和排序敏感性,以全面评估模型的分配公平性。具体的参数设置和网络结构取决于所使用的LLM模型,论文中可能没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在简历总结任务中,对种族扰动的敏感性高于性别扰动。在应聘者排序任务中,LLM对性别和种族扰动均表现出较高的敏感性。更令人惊讶的是,检索模型对人口统计学和非人口统计学变化的敏感性相当,这表明公平性问题可能源于更广泛的模型脆弱性。
🎯 应用场景
该研究成果可应用于改进基于LLM的招聘系统,减少算法偏见,提高招聘过程的公平性和公正性。此外,该研究方法也可推广到其他高风险决策场景,例如信贷评估、教育录取等,以评估和改进AI系统的公平性。
📄 摘要(原文)
Large language models (LLMs) are increasingly being deployed in high-stakes applications like hiring, yet their potential for unfair decision-making remains understudied in generative and retrieval settings. In this work, we examine the allocational fairness of LLM-based hiring systems through two tasks that reflect actual HR usage: resume summarization and applicant ranking. By constructing a synthetic resume dataset with controlled perturbations and curating job postings, we investigate whether model behavior differs across demographic groups. Our findings reveal that generated summaries exhibit meaningful differences more frequently for race than for gender perturbations. Models also display non-uniform retrieval selection patterns across demographic groups and exhibit high ranking sensitivity to both gender and race perturbations. Surprisingly, retrieval models can show comparable sensitivity to both demographic and non-demographic changes, suggesting that fairness issues may stem from broader model brittleness. Overall, our results indicate that LLM-based hiring systems, especially in the retrieval stage, can exhibit notable biases that lead to discriminatory outcomes in real-world contexts.