Gender Bias in Generative AI-assisted Recruitment Processes

📄 arXiv: 2603.11736v1 📥 PDF

作者: Martina Ullasci, Marco Rondina, Riccardo Coppola, Antonio Vetrò

分类: cs.AI

发布日期: 2026-03-12

备注: 4 pages, 4 figures

DOI: 10.5281/zenodo.18242470


💡 一句话要点

揭示GenAI招聘中性别偏见:GPT-5对意大利毕业生职业建议的性别化语言模式分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 性别偏见 大型语言模型 招聘流程 职业推荐

📋 核心要点

  1. 大型语言模型在招聘中的应用,可能无意中加剧了劳动力市场中固有的性别偏见和刻板印象。
  2. 通过分析GPT-5对模拟候选人的职业建议,揭示模型在语言使用上存在的性别差异。
  3. 研究发现,即使在职位和行业选择上没有明显差异,模型在描述男女候选人时使用的形容词存在显著的性别化倾向。

📝 摘要(中文)

近年来,生成式人工智能(GenAI)系统在人才选拔、招聘和候选人资料分析中扮演着日益重要的角色。然而,使用大型语言模型(LLM)存在重现甚至放大劳动力市场中已有的性别刻板印象和偏见的风险。本文旨在评估和衡量这种现象,分析最先进的生成模型(GPT-5)如何根据性别和工作经验背景推荐职业,重点关注35岁以下的意大利毕业生。该模型被提示为24个模拟候选人资料推荐工作,这些资料在性别、年龄、经验和专业领域方面保持平衡。虽然在职位和行业方面没有出现显著差异,但在赋予女性和男性候选人的形容词中出现了性别化的语言模式,表明该模型倾向于将女性与情感和同理心特征联系起来,而将男性与战略和分析特征联系起来。这项研究提出了关于在敏感流程中使用这些模型的伦理问题,强调了未来数字劳动力市场中透明度和公平性的必要性。

🔬 方法详解

问题定义:论文旨在评估和量化生成式AI在招聘过程中可能存在的性别偏见。现有方法缺乏对LLM在职业推荐中性别偏见的深入分析,尤其是在语言模式上的体现。这种偏见可能导致不公平的职业机会分配,并强化现有的性别刻板印象。

核心思路:核心思路是通过构建一系列控制变量的模拟候选人资料,并使用GPT-5模型进行职业推荐,然后分析模型在描述不同性别候选人时使用的语言模式,从而揭示潜在的性别偏见。这种方法旨在隔离性别因素,并量化其对模型输出的影响。

技术框架:研究的技术框架主要包括以下几个步骤:1) 创建24个模拟候选人资料,这些资料在性别、年龄、经验和专业领域方面保持平衡。2) 使用GPT-5模型为每个候选人资料生成职业推荐。3) 分析模型生成的文本,特别是描述候选人的形容词,以识别性别化的语言模式。4) 对比不同性别候选人获得的形容词,并使用统计方法评估差异的显著性。

关键创新:该研究的关键创新在于其系统性的方法,通过控制变量和量化分析,揭示了GPT-5模型在职业推荐中存在的微妙的性别偏见。与以往研究主要关注职位和行业选择不同,该研究深入分析了模型使用的语言模式,从而更全面地理解了性别偏见的表现形式。

关键设计:研究的关键设计包括:1) 候选人资料的构建,确保性别、年龄、经验和专业领域等因素的平衡,以隔离性别的影响。2) 使用GPT-5模型进行职业推荐,利用其强大的语言生成能力。3) 对模型生成的文本进行细致的语言分析,重点关注描述候选人的形容词。4) 使用统计方法评估不同性别候选人获得的形容词之间的差异,并确定其显著性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,即使在职位和行业选择上没有显著差异,GPT-5在描述男女候选人时使用的形容词存在显著的性别化倾向。具体而言,模型倾向于将女性与情感和同理心特征联系起来,而将男性与战略和分析特征联系起来。这些发现表明,即使是最先进的LLM也可能无意中强化现有的性别刻板印象。

🎯 应用场景

该研究成果可应用于改进GenAI驱动的招聘系统,使其更加公平和公正。通过识别和消除模型中的性别偏见,可以为求职者提供更平等的机会。此外,该研究也为开发更负责任和伦理的AI系统提供了指导,尤其是在涉及敏感决策的领域,如教育、金融和医疗保健。

📄 摘要(原文)

In recent years, generative artificial intelligence (GenAI) systems have assumed increasingly crucial roles in selection processes, personnel recruitment and analysis of candidates' profiles. However, the employment of large language models (LLMs) risks reproducing, and in some cases amplifying, gender stereotypes and bias already present in the labour market. The objective of this paper is to evaluate and measure this phenomenon, analysing how a state-of-the-art generative model (GPT-5) suggests occupations based on gender and work experience background, focusing on under-35-year-old Italian graduates. The model has been prompted to suggest jobs to 24 simulated candidate profiles, which are balanced in terms of gender, age, experience and professional field. Although no significant differences emerged in job titles and industry, gendered linguistic patterns emerged in the adjectives attributed to female and male candidates, indicating a tendency of the model to associate women with emotional and empathetic traits, while men with strategic and analytical ones. The research raises an ethical question regarding the use of these models in sensitive processes, highlighting the need for transparency and fairness in future digital labour markets.