Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models
作者: Zara Siddique, Liam D. Turner, Luis Espinosa-Anke
分类: cs.CL, cs.CY
发布日期: 2024-07-09 (更新: 2024-10-09)
备注: Accepted to EMNLP Main 2024
💡 一句话要点
GlobalBias数据集揭示大型语言模型中性别与族裔刻板印象,并发现模型越大刻板印象越强。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 刻板印象 偏见 数据集 性别 族裔 困惑度 人物画像
📋 核心要点
- 大型语言模型存在固有的偏见和刻板印象,尤其对边缘化群体影响显著,现有方法难以全面评估。
- 论文提出GlobalBias数据集,包含多样的性别-族裔群体,用于探测模型内部的刻板印象表示。
- 实验表明,模型越大,刻板印象输出越高,即使明确指示避免,刻板印象依然存在。
📝 摘要(中文)
大型语言模型(LLMs)已被证明会传播和放大有害的刻板印象,尤其是不利于边缘化群体的刻板印象。为了更全面地理解这些刻板印象的影响,我们引入了GlobalBias,一个包含87.6万个句子的数据集,其中包含了40个不同的性别-族裔群体,以及偏见文献中常用的描述符。这使我们能够研究来自世界各地的广泛的刻板印象。我们使用GlobalBias通过困惑度直接探测一系列LLM,我们使用困惑度作为代理来确定某些刻板印象在模型的内部表示中是如何体现的。接下来,我们基于给定的名字生成人物画像,并评估模型输出中刻板印象的普遍性。我们发现,与各种刻板印象相关的群体在模型可能性和模型输出中保持一致。此外,即使明确指示不要这样做,更大的模型也始终显示出更高水平的刻板印象输出。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中存在的、针对不同性别和族裔群体的刻板印象问题。现有方法通常关注特定类型的偏见,缺乏对全球范围内多种性别-族裔组合的全面评估。此外,现有方法难以量化模型内部对这些刻板印象的表示程度。
核心思路:论文的核心思路是构建一个包含大量性别-族裔相关语句的数据集(GlobalBias),并利用困惑度(perplexity)作为代理指标,来衡量模型对特定刻板印象的“接受”程度。同时,通过生成人物画像并分析模型输出,来评估刻板印象在实际应用中的表现。这样可以更全面地了解模型中存在的刻板印象及其影响。
技术框架:论文的技术框架主要包含两个阶段:1) 数据集构建:构建GlobalBias数据集,包含87.6k个句子,涵盖40个不同的性别-族裔群体,以及偏见文献中常用的描述符。2) 模型评估:使用GlobalBias数据集,通过困惑度探测模型的内部表示,并生成人物画像评估模型输出中的刻板印象。
关键创新:论文的关键创新在于构建了GlobalBias数据集,该数据集覆盖了更广泛的性别-族裔群体,从而能够更全面地评估大型语言模型中的刻板印象。此外,论文结合困惑度和人物画像生成,从不同角度评估了刻板印象的存在和影响。
关键设计:论文的关键设计包括:1) GlobalBias数据集的构建,需要精心选择性别-族裔组合和描述符,以确保数据集的代表性和覆盖性。2) 使用困惑度作为代理指标,需要仔细分析困惑度与刻板印象之间的关系,并进行适当的校准。3) 人物画像生成的设计,需要选择合适的提示词和生成策略,以确保生成的人物画像能够反映模型中的刻板印象。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GlobalBias数据集能够有效揭示大型语言模型中存在的刻板印象。研究发现,模型越大,刻板印象输出越高,即使明确指示模型避免刻板印象,情况依然如此。这表明大型语言模型可能在训练过程中无意中学习并放大了社会偏见。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型,减少其在生成内容中对特定群体的歧视和偏见。这有助于构建更公平、更负责任的人工智能系统,并促进社会公平。此外,该数据集可用于训练模型,使其更好地理解和避免刻板印象。
📄 摘要(原文)
Large language models (LLMs) have been shown to propagate and amplify harmful stereotypes, particularly those that disproportionately affect marginalised communities. To understand the effect of these stereotypes more comprehensively, we introduce GlobalBias, a dataset of 876k sentences incorporating 40 distinct gender-by-ethnicity groups alongside descriptors typically used in bias literature, which enables us to study a broad set of stereotypes from around the world. We use GlobalBias to directly probe a suite of LMs via perplexity, which we use as a proxy to determine how certain stereotypes are represented in the model's internal representations. Following this, we generate character profiles based on given names and evaluate the prevalence of stereotypes in model outputs. We find that the demographic groups associated with various stereotypes remain consistent across model likelihoods and model outputs. Furthermore, larger models consistently display higher levels of stereotypical outputs, even when explicitly instructed not to.