From 'Showgirls' to 'Performers': Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs

📄 arXiv: 2407.04434v1 📥 PDF

作者: Marion Bartl, Susan Leavy

分类: cs.CL

发布日期: 2024-07-05

备注: 10 pages, 5 tables; to appear in Proceedings of the 5th Workshop on Gender Bias in Natural Language Processing at ACL 2024


💡 一句话要点

通过性别包容性语言微调LLM,减少性别偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性别偏见 大型语言模型 微调 性别包容性语言 自然语言处理

📋 核心要点

  1. 现有大型语言模型(LLM)的训练数据和语言结构本身存在性别偏见,需要有效缓解。
  2. 论文提出通过构建性别包容性微调数据集'Tiny Heap',调整LLM训练数据中的语言结构,促进性别包容性。
  3. 实验结果表明,使用'Tiny Heap'微调LLM可以有效降低模型中的性别刻板印象倾向。

📝 摘要(中文)

大型语言模型(LLM)及其训练数据中普遍存在性别偏见,并且这种偏见深深地根植于语言本身的结构性方面。因此,调整LLM训练数据中的语言结构以促进性别包容性,可以使模型中的性别表征更具包容性。本文关注英语中具有性别排他性的词缀,例如'show-girl'或'man-cave',这些词缀会强化性别刻板印象和二元性别观念。我们使用LLM训练数据集汇编了692个具有性别排他性的术语及其性别中立的变体,并由此开发了一个性别包容性的微调数据集'Tiny Heap'。使用该数据集对三个不同的LLM进行微调后,我们观察到模型中性别刻板印象的倾向总体上有所降低。我们的方法为增强LLM训练数据中的性别包容性提供了一种实用的方法,并有助于将酷儿-女性主义语言行动主义纳入NLP中的偏见缓解研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的性别偏见问题,这种偏见源于训练数据和语言结构中固有的性别排他性表达。现有方法在处理这些细微的语言偏见时存在不足,难以有效消除性别刻板印象。

核心思路:论文的核心思路是通过构建一个包含性别排他性术语及其性别中立变体的微调数据集,对LLM进行微调,从而使模型学习到更具包容性的语言表达方式。这种方法直接干预了语言模型学习过程中的偏见来源。

技术框架:该方法主要包含以下几个阶段:1) 从LLM训练数据集中识别并收集性别排他性术语;2) 为每个性别排他性术语找到或创建对应的性别中立变体;3) 构建包含这些术语对的微调数据集'Tiny Heap';4) 使用'Tiny Heap'对预训练的LLM进行微调;5) 评估微调后的模型在性别偏见方面的表现。

关键创新:该方法的关键创新在于它直接针对语言中的性别排他性表达进行干预,通过提供性别中立的替代方案,引导模型学习更包容的语言模式。与以往主要关注模型输出的偏见缓解方法不同,该方法从训练数据层面入手,更具针对性和有效性。

关键设计:论文构建了一个包含692个性别排他性术语及其性别中立变体的'Tiny Heap'数据集。具体微调过程中的参数设置和损失函数等技术细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

论文通过使用构建的'Tiny Heap'数据集对三个不同的LLM进行微调,观察到模型中性别刻板印象的倾向总体上有所降低。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。但整体结果表明,该方法在减少LLM中的性别偏见方面是有效的。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务中,例如文本生成、机器翻译和对话系统,以减少模型输出中的性别偏见,提高公平性和包容性。该方法有助于构建更负责任和公正的人工智能系统,并促进社会对性别多样性的理解和尊重。

📄 摘要(原文)

Gender bias is not only prevalent in Large Language Models (LLMs) and their training data, but also firmly ingrained into the structural aspects of language itself. Therefore, adapting linguistic structures within LLM training data to promote gender-inclusivity can make gender representations within the model more inclusive. The focus of our work are gender-exclusive affixes in English, such as in 'show-girl' or 'man-cave', which can perpetuate gender stereotypes and binary conceptions of gender. We use an LLM training dataset to compile a catalogue of 692 gender-exclusive terms along with gender-neutral variants and from this, develop a gender-inclusive fine-tuning dataset, the 'Tiny Heap'. Fine-tuning three different LLMs with this dataset, we observe an overall reduction in gender-stereotyping tendencies across the models. Our approach provides a practical method for enhancing gender inclusivity in LLM training data and contributes to incorporating queer-feminist linguistic activism in bias mitigation research in NLP.