Who Gets the Callback? Generative AI and Gender Bias
作者: Sugat Chaturvedi, Rochana Chaturvedi
分类: econ.GN, cs.CL
发布日期: 2025-04-30
💡 一句话要点
通过审计开源LLM揭示招聘中的性别偏见,尤其在高薪职位上男性更受青睐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 性别偏见 大型语言模型 招聘 人工智能伦理 职业隔离
📋 核心要点
- 大型语言模型在招聘中应用广泛,但可能存在性别偏见,导致不公平的筛选结果。
- 通过分析LLM对男性和女性候选人的回调率差异,揭示模型在不同职位和人格下的偏见倾向。
- 实验表明,LLM在招聘中存在性别刻板印象,尤其在高薪职位和男性主导行业中更为明显。
📝 摘要(中文)
生成式人工智能(AI),特别是大型语言模型(LLM),正被迅速应用于招聘和候选人筛选。本文使用包含332,044个真实在线职位发布的的数据集,对几个中等规模的开源LLM进行了性别偏见审计。对于每个职位发布,我们提示模型推荐是否应该给同等资质的男性或女性候选人面试机会。研究发现,大多数模型倾向于偏袒男性,尤其是在高薪职位上。通过将职位描述映射到标准职业分类系统,我们发现女性在男性主导的职业中的回调率较低,而在女性相关的职业中回调率较高,表明存在职业隔离。对职位广告中语言特征的全面分析表明,模型推荐与传统的性别刻板印象高度一致。为了检验招聘者身份的作用,我们通过注入大五人格特质并模拟历史人物的视角来引导模型行为。我们发现,不那么随和的人格会减少刻板印象,这与LLM中的随和性偏差一致。我们的研究结果强调了人工智能驱动的招聘如何延续劳动力市场中的偏见,并对公司内部的公平性和多样性产生影响。
🔬 方法详解
问题定义:论文旨在识别和量化大型语言模型(LLM)在招聘过程中存在的性别偏见。现有方法缺乏对LLM在实际招聘场景中偏见的系统性评估,并且难以解释偏见产生的原因和影响因素。
核心思路:论文的核心思路是通过模拟招聘场景,分析LLM对不同性别候选人的回调率差异,并结合职位描述的语言特征和招聘者的人格特征,来揭示偏见的来源和影响。通过这种方式,可以更全面地了解LLM在招聘中可能存在的偏见,并为改进模型和招聘流程提供依据。
技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集包含大量真实在线职位发布的公开数据集。2) 模拟招聘:针对每个职位发布,提示LLM推荐是否应该给同等资质的男性或女性候选人面试机会。3) 偏见分析:分析LLM对不同性别候选人的回调率差异,并结合职位描述的语言特征和招聘者的人格特征进行分析。4) 结果解释:解释偏见产生的原因和影响,并提出改进建议。
关键创新:论文的关键创新在于:1) 系统性地评估了LLM在招聘中的性别偏见,并量化了偏见的程度。2) 结合职位描述的语言特征和招聘者的人格特征,揭示了偏见的来源和影响因素。3) 提出了通过调整招聘者人格特征来减少偏见的策略。
关键设计:论文的关键设计包括:1) 使用包含大量真实在线职位发布的公开数据集,保证了研究的可靠性。2) 通过模拟招聘场景,更真实地反映了LLM在实际招聘中的表现。3) 采用标准职业分类系统,对职位进行分类,便于分析不同职业中的偏见差异。4) 通过注入大五人格特质并模拟历史人物的视角,来引导模型行为,从而研究招聘者身份对偏见的影响。
🖼️ 关键图片
📊 实验亮点
研究发现,大多数模型倾向于偏袒男性,尤其是在高薪职位上。女性在男性主导的职业中的回调率较低,而在女性相关的职业中回调率较高,表明存在职业隔离。通过注入不同的人格特质,发现不那么随和的人格会减少刻板印象。
🎯 应用场景
该研究成果可应用于改进招聘流程,减少AI系统中的性别偏见,促进职场公平和多样性。企业可以使用该方法评估和优化其招聘AI系统,确保其不会无意中歧视特定性别的求职者。此外,研究结果还可以为AI伦理和公平性研究提供参考。
📄 摘要(原文)
Generative artificial intelligence (AI), particularly large language models (LLMs), is being rapidly deployed in recruitment and for candidate shortlisting. We audit several mid-sized open-source LLMs for gender bias using a dataset of 332,044 real-world online job postings. For each posting, we prompt the model to recommend whether an equally qualified male or female candidate should receive an interview callback. We find that most models tend to favor men, especially for higher-wage roles. Mapping job descriptions to the Standard Occupational Classification system, we find lower callback rates for women in male-dominated occupations and higher rates in female-associated ones, indicating occupational segregation. A comprehensive analysis of linguistic features in job ads reveals strong alignment of model recommendations with traditional gender stereotypes. To examine the role of recruiter identity, we steer model behavior by infusing Big Five personality traits and simulating the perspectives of historical figures. We find that less agreeable personas reduce stereotyping, consistent with an agreeableness bias in LLMs. Our findings highlight how AI-driven hiring may perpetuate biases in the labor market and have implications for fairness and diversity within firms.