Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora

📄 arXiv: 2406.13677v3 📥 PDF

作者: Erik Derner, Sara Sansalvador de la Fuente, Yoan Gutiérrez, Paloma Moreda, Nuria Oliver

分类: cs.CL, cs.CY

发布日期: 2024-06-19 (更新: 2025-06-17)

备注: Accepted for presentation at the 6th Workshop on Gender Bias in Natural Language Processing (GeBNLP) at ACL 2025


💡 一句话要点

提出一种基于LLM的方法,用于检测和量化性别化语言语料库中的性别表征偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性别偏见 大型语言模型 自然语言处理 性别表征 语料库分析 性别化语言 公平性

📋 核心要点

  1. 现有方法难以有效检测性别化语言语料库中的性别表征偏差,尤其是在语法性别带来挑战的情况下。
  2. 该论文提出利用大型语言模型的上下文理解能力,自动识别和分类性别化语言语料库中指代人的词语,从而量化性别表征偏差。
  3. 实验表明,训练数据中的性别偏差会影响模型输出,但可以通过对特定数据集的小规模训练来缓解这种偏差。

📝 摘要(中文)

大型语言模型(LLM)通常会继承并放大训练数据中嵌入的社会偏见,其中性别偏见尤为突出。以往的研究主要集中在英语中性别刻板印象偏见(特定角色或特征与特定性别相关联)的评估,以及模型嵌入或生成输出中的性别偏见评估。相比之下,训练语料库中性别表征偏差(不同性别个体被提及频率不均等)受到的关注较少。然而,训练数据中的这种不平衡是偏见的上游来源,会传播并加剧整个模型生命周期。为了填补这一空白,我们提出了一种新的基于LLM的方法,用于检测和量化性别化语言(其中语法性别对为英语开发的方法提出了挑战)的LLM训练数据中的性别表征偏差。通过利用LLM的上下文理解能力,我们的方法可以自动识别和分类性别化语言语料库中指代人的词语。应用于四个西班牙语-英语基准和五个巴伦西亚语语料库,我们的方法揭示了显著的男性主导的不平衡。我们表明,训练数据中的这种偏差会影响模型输出,但可以通过对偏向相反性别的小规模数据集进行训练来缓解。我们的研究结果强调了多语言NLP中语料库层面的性别偏见分析的必要性。我们公开了我们的代码和数据。

🔬 方法详解

问题定义:论文旨在解决性别化语言语料库中性别表征偏差的检测与量化问题。现有方法,特别是为英语设计的,难以直接应用于性别化语言,因为语法性别增加了分析的复杂性。现有的性别偏见研究主要集中在刻板印象和模型输出上,忽略了训练数据本身存在的性别表征偏差。

核心思路:核心思路是利用大型语言模型(LLM)强大的上下文理解能力,自动识别语料库中指代人物的词语,并根据其性别进行分类。通过统计不同性别指代词的频率,可以量化性别表征偏差。这种方法避免了手动标注的繁琐,并能更好地适应性别化语言的语法结构。

技术框架:整体框架包括以下几个主要步骤:1) 语料库预处理:清洗和格式化文本数据。2) 基于LLM的指代词识别:利用LLM识别语料库中所有指代人物的词语。3) 性别分类:使用LLM或外部词典将识别出的指代词分类为男性、女性或其他。4) 偏差量化:统计不同性别指代词的频率,计算性别表征偏差的指标。5) 偏差缓解(可选):使用特定数据集对模型进行微调,以减轻偏差。

关键创新:关键创新在于将大型语言模型的上下文理解能力应用于性别化语言的性别表征偏差分析。与传统方法相比,该方法无需手动标注,能够自动处理性别化语言的语法复杂性,并能更准确地识别指代人物的词语。此外,论文还探索了通过小规模数据集训练来缓解偏差的方法。

关键设计:论文的关键设计包括:1) 选择合适的LLM:选择具有良好上下文理解能力和多语言支持的LLM。2) 指代词识别策略:设计有效的提示工程(prompt engineering)方法,引导LLM准确识别指代人物的词语。3) 性别分类方法:结合LLM和外部词典,提高性别分类的准确性。4) 偏差量化指标:选择合适的指标来量化性别表征偏差,例如男性和女性指代词频率的比例。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法能够有效检测西班牙语和巴伦西亚语语料库中的显著男性主导偏差。研究还发现,通过对偏向相反性别的小规模数据集进行训练,可以有效缓解模型输出中的性别偏差。例如,在特定任务上,经过偏差缓解训练的模型在性别公平性指标上取得了显著提升。

🎯 应用场景

该研究成果可应用于多种场景,包括:评估和改进LLM训练数据的公平性,开发更公正的自然语言处理系统,以及提高机器翻译、文本摘要等应用中对不同性别的平等呈现。此外,该方法还可以用于分析新闻报道、文学作品等文本中的性别偏见,促进社会公平。

📄 摘要(原文)

Large language models (LLMs) often inherit and amplify social biases embedded in their training data. A prominent social bias is gender bias. In this regard, prior work has mainly focused on gender stereotyping bias - the association of specific roles or traits with a particular gender - in English and on evaluating gender bias in model embeddings or generated outputs. In contrast, gender representation bias - the unequal frequency of references to individuals of different genders - in the training corpora has received less attention. Yet such imbalances in the training data constitute an upstream source of bias that can propagate and intensify throughout the entire model lifecycle. To fill this gap, we propose a novel LLM-based method to detect and quantify gender representation bias in LLM training data in gendered languages, where grammatical gender challenges the applicability of methods developed for English. By leveraging the LLMs' contextual understanding, our approach automatically identifies and classifies person-referencing words in gendered language corpora. Applied to four Spanish-English benchmarks and five Valencian corpora, our method reveals substantial male-dominant imbalances. We show that such biases in training data affect model outputs, but can surprisingly be mitigated leveraging small-scale training on datasets that are biased towards the opposite gender. Our findings highlight the need for corpus-level gender bias analysis in multilingual NLP. We make our code and data publicly available.