PRIDE -- Parameter-Efficient Reduction of Identity Discrimination for Equality in LLMs
作者: Maluna Menke, Thilo Hagendorff
分类: cs.CL, cs.CY
发布日期: 2025-07-18
💡 一句话要点
PRIDE:参数高效地减少LLM中的身份歧视,提升对LGBTQIA+群体的公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 公平性 偏见缓解 参数高效微调 LoRA LGBTQIA+ 身份歧视 WinoQueer
📋 核心要点
- 大型语言模型存在性别和性取向偏见,对LGBTQIA+群体造成负面影响,需要有效降低这些偏见。
- 论文提出使用参数高效微调(PEFT)技术,特别是LoRA,在减少LLM中的身份歧视方面具有潜力。
- 实验表明,LoRA微调在减少偏见方面效果显著,使用少量额外参数即可大幅提升模型对LGBTQIA+群体的公平性。
📝 摘要(中文)
大型语言模型(LLM)经常 воспроизводят 训练语料库中嵌入的性别和性取向偏见,导致边缘化 LGBTQIA+ 用户的输出。因此,减少此类偏见至关重要。为了实现这一目标,我们评估了两种参数高效的微调(PEFT)技术——低秩适应(LoRA)和软提示调整——作为减轻此类偏见的完整模型微调的轻量级替代方案。使用 WinoQueer 基准,我们量化了三个开源 LLM 中的偏见,并观察到基线偏见分数在性别和/或性取向定义的各种酷儿身份中达到高达 98(满分 100),其中 50 表示中立。在精选的 QueerNews 语料库上使用 LoRA(< 0.1% 的额外参数)进行微调可将这些分数降低多达 50 分,并将中立性从几乎 0% 提高到高达 36%。软提示调整(10 个虚拟 token)仅带来边际改进。这些发现表明,LoRA 可以以最小的计算量提供有意义的公平性提升。我们提倡更广泛地采用社区知情的 PEFT、创建更大的酷儿作者语料库以及超越 WinoQueer 的更丰富的评估套件,并结合持续的审计以保持 LLM 的包容性。
🔬 方法详解
问题定义:大型语言模型(LLM)在训练过程中学习到的偏见,导致其在处理涉及性别和性取向等身份认同时,会产生歧视性或不公正的输出。现有方法,如全模型微调,计算成本高昂,难以广泛应用。因此,需要一种参数效率高的方法来减少LLM中的身份歧视。
核心思路:利用参数高效微调(PEFT)技术,特别是LoRA,在预训练的LLM中引入少量可训练参数,从而在不改变模型主体结构的情况下,调整模型的行为,减少其对特定身份群体的偏见。LoRA通过学习低秩矩阵来近似权重更新,显著降低了计算成本。
技术框架:该方法主要包含以下几个阶段:1) 选择预训练的LLM作为基础模型;2) 构建或选择包含LGBTQIA+相关内容的语料库(QueerNews);3) 使用LoRA或软提示调整等PEFT技术对模型进行微调,目标是减少模型在WinoQueer等基准测试中的偏见;4) 使用WinoQueer等基准测试评估微调后的模型,量化偏见程度。
关键创新:该研究的关键创新在于探索了LoRA在减少LLM中身份歧视方面的有效性。与全模型微调相比,LoRA仅需微调少量参数,大大降低了计算成本,使其更易于部署和应用。此外,该研究还强调了社区知情的PEFT的重要性,即使用由相关群体创建或审核的语料库进行微调。
关键设计:LoRA的秩设置为未知,具体数值取决于实验效果。使用QueerNews语料库进行微调,该语料库包含LGBTQIA+相关的新闻文章。使用WinoQueer基准测试评估模型的偏见程度,该基准测试包含一系列需要模型进行推理的句子,这些句子涉及不同的性别和性取向身份。软提示调整使用10个虚拟token,通过梯度下降优化这些token的嵌入向量,以影响模型的输出。
📊 实验亮点
实验结果表明,使用LoRA在QueerNews语料库上微调LLM,可以显著降低模型在WinoQueer基准测试中的偏见分数,最高可降低50分(满分100)。同时,模型的中立性从几乎0%提高到高达36%。相比之下,软提示调整的效果不明显。这些结果表明,LoRA是一种参数高效且有效的减少LLM中身份歧视的方法。
🎯 应用场景
该研究成果可应用于各种需要减少LLM偏见的场景,例如:改进聊天机器人,使其对LGBTQIA+用户更加友好和包容;开发更公平的文本生成系统,避免产生歧视性内容;构建更公正的搜索引擎,减少搜索结果中的偏见。此外,该研究也为其他身份群体的公平性研究提供了借鉴。
📄 摘要(原文)
Large Language Models (LLMs) frequently reproduce the gender- and sexual-identity prejudices embedded in their training corpora, leading to outputs that marginalize LGBTQIA+ users. Hence, reducing such biases is of great importance. To achieve this, we evaluate two parameter-efficient fine-tuning (PEFT) techniques - Low-Rank Adaptation (LoRA) and soft-prompt tuning - as lightweight alternatives to full-model fine-tuning for mitigating such biases. Using the WinoQueer benchmark, we quantify bias in three open-source LLMs and observe baseline bias scores reaching up to 98 (out of 100) across a range of queer identities defined by gender and/or sexual orientation, where 50 would indicate neutrality. Fine-tuning with LoRA (< 0.1% additional parameters) on a curated QueerNews corpus reduces those scores by up to 50 points and raises neutrality from virtually 0% to as much as 36%. Soft-prompt tuning (10 virtual tokens) delivers only marginal improvements. These findings show that LoRA can deliver meaningful fairness gains with minimal computation. We advocate broader adoption of community-informed PEFT, the creation of larger queer-authored corpora, and richer evaluation suites beyond WinoQueer, coupled with ongoing audits to keep LLMs inclusive.