'Since Lawyers are Males..': Examining Implicit Gender Bias in Hindi Language Generation by LLMs

📄 arXiv: 2409.13484v1 📥 PDF

作者: Ishika Joshi, Ishita Gupta, Adrita Dey, Tapan Parikh

分类: cs.CL, cs.AI, cs.HC

发布日期: 2024-09-20


💡 一句话要点

揭示LLM在印地语生成中显著的性别偏见,远超英语,强调跨语言偏见差异。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性别偏见 大型语言模型 印地语 文本生成 WinoBias 公平性 低资源语言

📋 核心要点

  1. 现有LLM在英语中已存在性别偏见,但在印地语等低资源语言中更为严重,缺乏系统性研究。
  2. 构建印地语数据集,借鉴WinoBias,评估GPT-4o和Claude-3 sonnet等模型在印地语生成中的性别偏见。
  3. 实验表明,印地语生成中性别偏见高达87.8%,远高于英语的33.4%,揭示了跨语言偏见差异。

📝 摘要(中文)

大型语言模型(LLMs)正被广泛应用于多种语言的文本生成,包括翻译、客户支持和教育等任务。尽管取得了这些进展,LLMs在英语中表现出明显的性别偏见,并且在生成印地语等相对不常见的语言内容时,这种偏见会更加突出。本研究旨在探索印地语文本生成中隐含的性别偏见,并将其与英语中的偏见进行比较。我们开发了受WinoBias启发的印地语数据集,以检验GPT-4o和Claude-3 sonnet等模型的刻板印象模式。结果表明,印地语中存在显著的性别偏见,高达87.8%,而英语GPT-4o生成中的性别偏见为33.4%。印地语的回复经常依赖于与职业、权力等级和社会阶层相关的性别刻板印象。这项研究强调了跨语言的性别偏见差异,并为在生成式AI系统中应对这些偏见提供了思考。

🔬 方法详解

问题定义:论文旨在量化和分析大型语言模型在印地语文本生成中存在的性别偏见。现有方法主要关注英语等高资源语言,忽略了在印地语等低资源语言中可能更加严重的性别偏见问题。现有方法缺乏针对印地语的评估数据集和基准。

核心思路:论文的核心思路是通过构建一个受WinoBias启发的印地语数据集,来系统地评估LLM在印地语文本生成中的性别偏见。通过分析模型在处理与职业、权力等级和社会阶层相关的文本时的表现,揭示其潜在的性别刻板印象。

技术框架:该研究主要包含以下几个阶段:1) 构建印地语数据集,该数据集包含一系列句子,这些句子旨在测试模型在处理性别相关信息时的偏见。2) 使用GPT-4o和Claude-3 sonnet等LLM生成印地语文本。3) 分析生成的文本,量化其中存在的性别偏见。4) 将印地语中的性别偏见与英语中的性别偏见进行比较。

关键创新:该研究的关键创新在于:1) 首次系统地评估了LLM在印地语文本生成中的性别偏见。2) 构建了一个专门用于评估印地语性别偏见的数据集。3) 揭示了印地语中的性别偏见远高于英语,强调了跨语言偏见差异的重要性。

关键设计:数据集的设计灵感来源于WinoBias,包含一系列需要模型进行指代消解的句子,这些句子中包含了与性别相关的职业、权力等级和社会阶层等信息。通过分析模型在指代消解任务中的表现,来评估其是否存在性别偏见。偏见程度通过统计模型生成文本中与性别相关的刻板印象的频率来量化。

📊 实验亮点

实验结果表明,GPT-4o在印地语文本生成中表现出显著的性别偏见,高达87.8%,远高于其在英语文本生成中的33.4%。这表明在低资源语言中,LLM的性别偏见问题更为严重。该研究强调了跨语言偏见差异,并为开发更公平的AI系统提供了重要依据。

🎯 应用场景

该研究成果可应用于开发更公平、无偏见的印地语文本生成系统,例如在机器翻译、客户服务和教育领域。有助于提高AI系统的社会公平性,减少对特定性别群体的歧视。未来可扩展到其他低资源语言,促进全球AI的公平发展。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly being used to generate text across various languages, for tasks such as translation, customer support, and education. Despite these advancements, LLMs show notable gender biases in English, which become even more pronounced when generating content in relatively underrepresented languages like Hindi. This study explores implicit gender biases in Hindi text generation and compares them to those in English. We developed Hindi datasets inspired by WinoBias to examine stereotypical patterns in responses from models like GPT-4o and Claude-3 sonnet. Our results reveal a significant gender bias of 87.8% in Hindi, compared to 33.4% in English GPT-4o generation, with Hindi responses frequently relying on gender stereotypes related to occupations, power hierarchies, and social class. This research underscores the variation in gender biases across languages and provides considerations for navigating these biases in generative AI systems.