Man Made Language Models? Evaluating LLMs' Perpetuation of Masculine Generics Bias

📄 arXiv: 2502.10577v1 📥 PDF

作者: Enzo Doyen, Amalia Todirascu

分类: cs.CL, cs.AI

发布日期: 2025-02-14

备注: 21 pages, 5 figures


💡 一句话要点

评估大型语言模型中男性泛指偏见:揭示并量化LLM对性别刻板印象的强化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 男性泛指 自然语言处理 公平性 法语 指令数据集

📋 核心要点

  1. 大型语言模型在生成文本时会无意中延续和放大性别偏见,尤其是在处理泛指代词时,这是一个重要问题。
  2. 该研究通过分析LLM对法语泛指指令的响应,量化了模型中男性泛指偏见的程度,并揭示了模型在性别公平语言使用方面的不足。
  3. 实验结果表明,LLM在处理泛指指令时,有显著比例的响应存在男性泛指偏见,尤其是在涉及人类名词时,偏见更为明显。

📝 摘要(中文)

大型语言模型(LLM)已被证明会在特定或受限的上下文中传播甚至放大性别偏见,无论是在英语还是其他语言中。然而,目前还没有研究关注LLM对泛指指令的响应中所传达的性别偏见,特别是关于男性泛指(MG)的偏见。MG是许多具有性别标记的语言中存在的一种语言特征,它使用男性性别作为“默认”或所谓的“中性”性别来指代男女混合的群体,或者性别无关紧要或未知的人。大量的心理语言学研究表明,MG并非中性,而是会诱发性别偏见。本研究旨在分析专有和本地LLM在响应泛指指令时对MG的使用情况,并评估其MG偏见率。我们专注于法语,并从现有的词汇资源中创建了一个人工名词数据库。我们过滤现有的法语指令数据集以检索泛指指令,并分析6个不同LLM的响应。总体而言,我们发现约39.5%的LLM对泛指指令的响应存在MG偏见(在包含人工名词的响应中约为73.1%)。我们的研究结果还表明,LLM不愿自发地使用性别公平的语言。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理泛指指令时,对男性泛指(MG)的偏见问题。现有方法缺乏对LLM在处理泛指指令时性别偏见的系统性评估,尤其是在MG语言(如法语)中。这种偏见会导致模型生成带有性别刻板印象的文本,从而强化社会偏见。

核心思路:论文的核心思路是通过构建一个包含泛指指令和人工名词的法语数据集,并分析LLM对这些指令的响应,来量化模型中MG偏见的程度。通过分析模型生成文本中男性泛指的使用频率,评估模型是否倾向于使用男性代词来指代性别不明或混合性别的群体。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建法语人工名词数据库;2) 过滤现有的法语指令数据集,提取泛指指令;3) 使用不同的LLM(包括专有模型和本地模型)对泛指指令进行响应生成;4) 分析LLM生成的文本,统计男性泛指的使用频率,计算MG偏见率。

关键创新:该研究的关键创新在于:1) 首次系统性地评估了LLM在处理泛指指令时对男性泛指的偏见;2) 构建了一个用于评估法语LLM性别偏见的基准数据集;3) 揭示了LLM在处理泛指指令时,存在显著的男性泛指偏见,并量化了这种偏见的程度。

关键设计:论文的关键设计包括:1) 使用人工名词数据库来确保评估的准确性;2) 采用多种LLM进行评估,以验证结果的普遍性;3) 使用MG偏见率作为评估指标,量化模型中男性泛指偏见的程度。具体参数设置和损失函数未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,约39.5%的LLM对泛指指令的响应存在男性泛指偏见,而在包含人工名词的响应中,这一比例高达73.1%。这表明LLM在处理涉及人类的泛指指令时,更容易产生性别偏见。研究还发现,LLM不愿自发地使用性别公平的语言。

🎯 应用场景

该研究成果可应用于开发更公平、更具包容性的语言模型。通过了解LLM中存在的性别偏见,可以设计相应的干预措施,例如数据增强、模型微调等,以减少或消除这些偏见。这对于构建负责任的人工智能系统至关重要,尤其是在涉及社会公平和公正的应用场景中。

📄 摘要(原文)

Large language models (LLMs) have been shown to propagate and even amplify gender bias, in English and other languages, in specific or constrained contexts. However, no studies so far have focused on gender biases conveyed by LLMs' responses to generic instructions, especially with regard to masculine generics (MG). MG are a linguistic feature found in many gender-marked languages, denoting the use of the masculine gender as a "default" or supposedly neutral gender to refer to mixed group of men and women, or of a person whose gender is irrelevant or unknown. Numerous psycholinguistics studies have shown that MG are not neutral and induce gender bias. This work aims to analyze the use of MG by both proprietary and local LLMs in responses to generic instructions and evaluate their MG bias rate. We focus on French and create a human noun database from existing lexical resources. We filter existing French instruction datasets to retrieve generic instructions and analyze the responses of 6 different LLMs. Overall, we find that $\approx$39.5\% of LLMs' responses to generic instructions are MG-biased ($\approx$73.1\% across responses with human nouns). Our findings also reveal that LLMs are reluctant to using gender-fair language spontaneously.