Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs

📄 arXiv: 2505.02456v2 📥 PDF

作者: Elisa Forcada Rodríguez, Olatz Perez-de-Viñaspre, Jon Ander Campos, Dietrich Klakow, Vagrant Gautam

分类: cs.CL

发布日期: 2025-05-05 (更新: 2025-07-26)

备注: Workshop on Gender Bias in Natural Language Processing at ACL 2025


💡 一句话要点

首个多语言交叉性别与国家偏见研究,揭示LLM职业推荐中的刻板印象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 公平性 偏见 职业推荐 多语言 交叉偏见 性别偏见 国家偏见

📋 核心要点

  1. 现有NLP公平性研究主要关注单一维度的偏见(如性别)和英语,忽略了多语言和交叉偏见的影响。
  2. 该研究构建多语言基准测试,系统性地评估LLM在职业推荐中存在的交叉性别和国家偏见。
  3. 实验表明,即使模型在单一维度上表现良好,交叉偏见依然存在,且提示语言会显著影响偏见程度。

📝 摘要(中文)

自然语言处理(NLP)公平性研究的目标之一是衡量和减轻NLP系统传播的刻板偏见。然而,现有工作往往侧重于单一偏见轴(通常是性别)和英语。为了解决这些局限性,我们首次研究了多语言交叉国家和性别偏见,重点关注大型语言模型生成的职业推荐。我们构建了一个包含英语、西班牙语和德语提示的基准,系统地改变国家和性别,使用了25个国家和四组代词。然后,我们评估了一套基于Llama的模型,发现LLM编码了显著的性别和国家偏见。值得注意的是,即使模型在性别或国家方面表现出均等性,基于国家和性别的交叉职业偏见仍然存在。我们还表明,提示语言显著影响偏见,并且指令调优模型始终表现出最低和最稳定的偏见水平。我们的研究结果强调了公平性研究人员需要在工作中采用交叉和多语言视角。

🔬 方法详解

问题定义:现有NLP公平性研究在职业推荐任务中,主要关注单一语言和单一维度的偏见(例如,只考虑性别偏见),忽略了多语言环境下,性别和国家交叉影响产生的偏见。这种简化可能导致对现实世界偏见的不完整理解,并可能在实际应用中产生不公平的结果。

核心思路:该研究的核心思路是通过构建一个多语言、多维度的基准测试,系统性地评估大型语言模型(LLM)在职业推荐任务中存在的交叉偏见。具体来说,通过控制国家、性别和语言等因素,观察LLM在生成职业推荐时是否会表现出刻板印象。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建多语言基准测试:设计包含英语、西班牙语和德语的提示,系统性地改变国家(25个国家)和性别(四组代词)。2) 模型评估:使用构建的基准测试评估一系列基于Llama的模型。3) 偏见分析:分析模型生成的职业推荐,识别并量化存在的性别和国家偏见,特别是交叉偏见。4) 语言影响分析:研究提示语言对偏见的影响。

关键创新:该研究的关键创新在于:1) 首次对多语言环境下的交叉性别和国家偏见进行系统性研究。2) 构建了一个包含多种语言和多种维度的基准测试,为评估LLM的公平性提供了新的工具。3) 揭示了即使模型在单一维度上表现良好,交叉偏见依然存在,强调了多维度偏见评估的重要性。

关键设计:该研究的关键设计包括:1) 提示工程:精心设计提示,以控制国家和性别等因素,并确保提示的清晰性和一致性。2) 模型选择:选择一系列基于Llama的模型,以评估不同模型在偏见方面的表现。3) 偏见度量:使用适当的指标来量化模型生成的职业推荐中存在的性别和国家偏见。4) 统计分析:使用统计方法来分析实验结果,并确定不同因素对偏见的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在职业推荐中存在显著的性别和国家偏见,即使模型在单一维度上表现出均等性,交叉偏见依然存在。指令调优模型表现出最低和最稳定的偏见水平。提示语言对偏见有显著影响,表明多语言评估的重要性。该研究为后续的公平性研究提供了重要的基准和方法。

🎯 应用场景

该研究成果可应用于改进职业推荐系统,减少算法偏见,促进公平就业。同时,该研究提出的多语言交叉偏见评估方法,可推广到其他NLP任务和领域,例如教育、医疗等,有助于构建更公平、更负责任的人工智能系统。未来,可以进一步研究如何减轻或消除LLM中的交叉偏见。

📄 摘要(原文)

One of the goals of fairness research in NLP is to measure and mitigate stereotypical biases that are propagated by NLP systems. However, such work tends to focus on single axes of bias (most often gender) and the English language. Addressing these limitations, we contribute the first study of multilingual intersecting country and gender biases, with a focus on occupation recommendations generated by large language models. We construct a benchmark of prompts in English, Spanish and German, where we systematically vary country and gender, using 25 countries and four pronoun sets. Then, we evaluate a suite of 5 Llama-based models on this benchmark, finding that LLMs encode significant gender and country biases. Notably, we find that even when models show parity for gender or country individually, intersectional occupational biases based on both country and gender persist. We also show that the prompting language significantly affects bias, and instruction-tuned models consistently demonstrate the lowest and most stable levels of bias. Our findings highlight the need for fairness researchers to use intersectional and multilingual lenses in their work.