Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval

作者: Kyra Wilson, Aylin Caliskan

分类: cs.CY, cs.AI, cs.CL, cs.LG

发布日期: 2024-07-29 (更新: 2024-08-20)

备注: To be published in Proceedings of the 2024 AAAI/ACM Conference on AI, Ethics, and Society; code available at https://github.com/kyrawilson/Resume-Screening-Bias

💡 一句话要点

通过语言模型检索揭示简历筛选中的性别、种族和交叉偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 简历筛选 语言模型 偏见检测 公平性 交叉性 文本嵌入 人工智能招聘

📋 核心要点

现有AI招聘工具依赖的LLM可能存在偏见，导致对特定群体的歧视，公平性面临挑战。
论文采用文档检索框架，模拟简历筛选过程，评估大规模文本嵌入模型（MTE）的偏见。
实验结果表明，MTE模型在简历筛选中存在显著的种族和性别偏见，尤其不利于黑人男性。

📝 摘要（中文）

人工智能招聘工具已经彻底改变了简历筛选流程，而大型语言模型（LLMs）有潜力进一步革新这一领域。然而，鉴于LLMs中固有的偏见，它们在简历筛选中是否会不利于特定群体（基于其受保护属性）尚不清楚。本文通过模拟求职候选人选择的文档检索框架，研究了在简历筛选中使用LLMs的可能性。利用该框架，我们进行了一项简历审计研究，以确定一系列大规模文本嵌入（MTE）模型在简历筛选场景中是否存在偏见。我们模拟了九种职业，使用了超过500份公开简历和500份职位描述。研究发现，MTE模型存在偏见，在85.1%的案例中显著偏向与白人相关的名字，仅在11.1%的案例中偏向与女性相关的名字，少数案例未显示出统计学上的显著差异。进一步的分析表明，黑人男性在高达100%的案例中处于不利地位，重现了就业环境中真实的偏见模式，并验证了三个关于交叉性的假设。我们还发现文档长度以及语料库中名字的频率对简历的选择有影响。这些发现对广泛使用的、正在自动化就业的人工智能工具、公平性和技术政策具有重要意义。

🔬 方法详解

问题定义：论文旨在研究在简历筛选中使用大型语言模型（LLMs）时，是否存在性别、种族以及交叉偏见。现有方法，即直接使用LLMs进行简历筛选，可能因为LLMs本身包含的偏见而导致对特定人群的不公平待遇。现有方法缺乏对这些偏见的系统性评估和量化。

核心思路：论文的核心思路是利用文档检索框架模拟简历筛选过程。通过将简历和职位描述嵌入到向量空间中，并计算它们之间的相似度，来模拟LLM对候选人的选择。通过控制简历中姓名等属性，并观察模型选择的差异，来评估LLM的偏见。

技术框架：整体框架包含以下几个主要模块： 1. 数据收集：收集公开的简历和职位描述，并对简历进行处理，生成包含不同性别和种族相关信息的版本。 2. 文本嵌入：使用大规模文本嵌入（MTE）模型将简历和职位描述嵌入到向量空间中。 3. 相似度计算：计算简历和职位描述之间的相似度得分。 4. 偏见评估：分析不同性别和种族简历的相似度得分差异，评估MTE模型的偏见。

关键创新：论文的关键创新在于使用文档检索框架来模拟简历筛选过程，从而能够系统地评估LLM在简历筛选中的偏见。此外，论文还关注了交叉性偏见，即不同属性组合（例如，黑人男性）可能面临的特殊歧视。

关键设计：论文的关键设计包括： 1. MTE模型选择：选择了多种MTE模型进行评估，以确保结果的稳健性。 2. 简历属性控制：通过替换简历中的姓名，生成不同性别和种族相关的版本，从而控制了简历的属性。 3. 统计显著性检验：使用统计显著性检验来评估不同组别之间的差异，确保结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MTE模型在85.1%的案例中显著偏向与白人相关的名字，仅在11.1%的案例中偏向与女性相关的名字。黑人男性在高达100%的案例中处于不利地位，验证了交叉性偏见的存在。文档长度和姓名在语料库中的频率也会影响简历的选择。

🎯 应用场景

该研究成果可应用于改进AI招聘工具，减少算法偏见，提升招聘公平性。企业可以利用该方法评估和优化其使用的AI系统，确保其不会歧视特定群体。此外，该研究也为制定相关技术政策提供了参考，有助于规范AI在就业领域的应用。

📄 摘要（原文）

Artificial intelligence (AI) hiring tools have revolutionized resume screening, and large language models (LLMs) have the potential to do the same. However, given the biases which are embedded within LLMs, it is unclear whether they can be used in this scenario without disadvantaging groups based on their protected attributes. In this work, we investigate the possibilities of using LLMs in a resume screening setting via a document retrieval framework that simulates job candidate selection. Using that framework, we then perform a resume audit study to determine whether a selection of Massive Text Embedding (MTE) models are biased in resume screening scenarios. We simulate this for nine occupations, using a collection of over 500 publicly available resumes and 500 job descriptions. We find that the MTEs are biased, significantly favoring White-associated names in 85.1\% of cases and female-associated names in only 11.1\% of cases, with a minority of cases showing no statistically significant differences. Further analyses show that Black males are disadvantaged in up to 100\% of cases, replicating real-world patterns of bias in employment settings, and validate three hypotheses of intersectionality. We also find an impact of document length as well as the corpus frequency of names in the selection of resumes. These findings have implications for widely used AI tools that are automating employment, fairness, and tech policy.

Gender, Race, and Intersectional Bias in Resume Screening via Language Model Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理