Invisible Filters: Cultural Bias in Hiring Evaluations Using Large Language Models

📄 arXiv: 2508.16673v1 📥 PDF

作者: Pooja S. B. Rao, Laxminarayen Nagarajan Venkatesan, Mauro Cherubini, Dinesh Babu Jayagopi

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-08-21

备注: Accepted to AIES 2025


💡 一句话要点

提出系统分析以解决大型语言模型招聘评估中的文化偏见问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 招聘评估 文化偏见 大型语言模型 AI公平性 身份替换 语言特征 多元文化

📋 核心要点

  1. 现有的AI招聘评估方法缺乏对文化差异的系统研究,可能导致不公平的招聘决策。
  2. 本研究通过分析不同文化背景下的面试记录,探讨LLMs在招聘评估中的偏见问题。
  3. 实验结果显示,印度求职者的评分普遍低于英国求职者,且名字替换实验未显著影响评估结果。

📝 摘要(中文)

人工智能在招聘中的应用日益增加,大型语言模型(LLMs)可能影响甚至做出招聘决策。然而,这引发了关于偏见、公平性和信任的紧迫担忧,尤其是在多元文化背景下。本研究系统分析了LLMs在文化和身份维度上如何评估求职面试。通过分析来自英国和印度求职者的面试记录,发现印度记录的评分普遍低于英国记录,且这种差异与语言特征有关。我们还进行了身份替换实验,结果表明,仅通过名字进行的替换未能显著影响LLM评估。研究强调了在LLM驱动的评估中考虑语言和社会维度的重要性,并呼吁在AI辅助招聘中进行文化敏感设计和问责。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在招聘评估中可能存在的文化偏见问题。现有方法未能系统评估不同文化背景下的招聘评估差异,导致潜在的不公平性。

核心思路:通过对来自不同文化背景的求职者面试记录进行系统分析,研究LLMs在评估过程中的偏见表现,特别关注语言特征与社会身份的影响。

技术框架:研究使用了两个面试记录数据集,分别来自100名英国求职者和100名印度求职者。首先分析LLMs生成的可雇佣性评分,然后进行身份替换实验以测试名字偏见。

关键创新:本研究的创新在于系统性地比较不同文化背景下的LLM评估结果,揭示了语言特征对评分的影响,并首次探讨了名字替换对评估结果的影响。

关键设计:在实验中,使用了匿名化的面试记录以消除身份信息的干扰,并通过控制变量的方式进行身份替换,确保评估的公正性和准确性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,印度求职者的面试记录在LLM评估中获得的评分显著低于英国求职者,尽管记录经过匿名化处理。身份替换实验表明,仅通过名字进行的替换未能显著影响评估结果,强调了语言特征在招聘评估中的重要性。

🎯 应用场景

该研究的结果对AI在招聘中的应用具有重要意义,尤其是在多文化环境中。通过识别和理解文化偏见,企业可以设计更公平的招聘流程,提升多样性和包容性。此外,该研究为未来的AI系统设计提供了文化敏感性的指导,促进了对招聘决策的透明度和问责制。

📄 摘要(原文)

Artificial Intelligence (AI) is increasingly used in hiring, with large language models (LLMs) having the potential to influence or even make hiring decisions. However, this raises pressing concerns about bias, fairness, and trust, particularly across diverse cultural contexts. Despite their growing role, few studies have systematically examined the potential biases in AI-driven hiring evaluation across cultures. In this study, we conduct a systematic analysis of how LLMs assess job interviews across cultural and identity dimensions. Using two datasets of interview transcripts, 100 from UK and 100 from Indian job seekers, we first examine cross-cultural differences in LLM-generated scores for hirability and related traits. Indian transcripts receive consistently lower scores than UK transcripts, even when they were anonymized, with disparities linked to linguistic features such as sentence complexity and lexical diversity. We then perform controlled identity substitutions (varying names by gender, caste, and region) within the Indian dataset to test for name-based bias. These substitutions do not yield statistically significant effects, indicating that names alone, when isolated from other contextual signals, may not influence LLM evaluations. Our findings underscore the importance of evaluating both linguistic and social dimensions in LLM-driven evaluations and highlight the need for culturally sensitive design and accountability in AI-assisted hiring.