PRIDE -- Parameter-Efficient Reduction of Identity Discrimination for Equality in LLMs

作者: Maluna Menke, Thilo Hagendorff

分类: cs.CL, cs.CY

发布日期: 2025-07-18

💡 一句话要点

PRIDE：参数高效地减少LLM中的身份歧视，提升对LGBTQIA+群体的公平性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公平性 偏见缓解 参数高效微调 LoRA LGBTQIA+ 身份歧视 WinoQueer

📋 核心要点

大型语言模型存在性别和性取向偏见，对LGBTQIA+群体造成负面影响，需要有效降低这些偏见。
论文提出使用参数高效微调（PEFT）技术，特别是LoRA，在减少LLM中的身份歧视方面具有潜力。
实验表明，LoRA微调在减少偏见方面效果显著，使用少量额外参数即可大幅提升模型对LGBTQIA+群体的公平性。

📝 摘要（中文）

大型语言模型(LLM)经常 воспроизводят 训练语料库中嵌入的性别和性取向偏见，导致边缘化 LGBTQIA+ 用户的输出。因此，减少此类偏见至关重要。为了实现这一目标，我们评估了两种参数高效的微调(PEFT)技术——低秩适应(LoRA)和软提示调整——作为减轻此类偏见的完整模型微调的轻量级替代方案。使用 WinoQueer 基准，我们量化了三个开源 LLM 中的偏见，并观察到基线偏见分数在性别和/或性取向定义的各种酷儿身份中达到高达 98（满分 100），其中 50 表示中立。在精选的 QueerNews 语料库上使用 LoRA（< 0.1% 的额外参数）进行微调可将这些分数降低多达 50 分，并将中立性从几乎 0% 提高到高达 36%。软提示调整（10 个虚拟 token）仅带来边际改进。这些发现表明，LoRA 可以以最小的计算量提供有意义的公平性提升。我们提倡更广泛地采用社区知情的 PEFT、创建更大的酷儿作者语料库以及超越 WinoQueer 的更丰富的评估套件，并结合持续的审计以保持 LLM 的包容性。

🔬 方法详解

问题定义：大型语言模型（LLM）在训练过程中学习到的偏见，导致其在处理涉及性别和性取向等身份认同时，会产生歧视性或不公正的输出。现有方法，如全模型微调，计算成本高昂，难以广泛应用。因此，需要一种参数效率高的方法来减少LLM中的身份歧视。

核心思路：利用参数高效微调（PEFT）技术，特别是LoRA，在预训练的LLM中引入少量可训练参数，从而在不改变模型主体结构的情况下，调整模型的行为，减少其对特定身份群体的偏见。LoRA通过学习低秩矩阵来近似权重更新，显著降低了计算成本。

技术框架：该方法主要包含以下几个阶段：1) 选择预训练的LLM作为基础模型；2) 构建或选择包含LGBTQIA+相关内容的语料库（QueerNews）；3) 使用LoRA或软提示调整等PEFT技术对模型进行微调，目标是减少模型在WinoQueer等基准测试中的偏见；4) 使用WinoQueer等基准测试评估微调后的模型，量化偏见程度。

关键创新：该研究的关键创新在于探索了LoRA在减少LLM中身份歧视方面的有效性。与全模型微调相比，LoRA仅需微调少量参数，大大降低了计算成本，使其更易于部署和应用。此外，该研究还强调了社区知情的PEFT的重要性，即使用由相关群体创建或审核的语料库进行微调。

关键设计：LoRA的秩设置为未知，具体数值取决于实验效果。使用QueerNews语料库进行微调，该语料库包含LGBTQIA+相关的新闻文章。使用WinoQueer基准测试评估模型的偏见程度，该基准测试包含一系列需要模型进行推理的句子，这些句子涉及不同的性别和性取向身份。软提示调整使用10个虚拟token，通过梯度下降优化这些token的嵌入向量，以影响模型的输出。

📊 实验亮点

实验结果表明，使用LoRA在QueerNews语料库上微调LLM，可以显著降低模型在WinoQueer基准测试中的偏见分数，最高可降低50分（满分100）。同时，模型的中立性从几乎0%提高到高达36%。相比之下，软提示调整的效果不明显。这些结果表明，LoRA是一种参数高效且有效的减少LLM中身份歧视的方法。

🎯 应用场景

该研究成果可应用于各种需要减少LLM偏见的场景，例如：改进聊天机器人，使其对LGBTQIA+用户更加友好和包容；开发更公平的文本生成系统，避免产生歧视性内容；构建更公正的搜索引擎，减少搜索结果中的偏见。此外，该研究也为其他身份群体的公平性研究提供了借鉴。

📄 摘要（原文）

Large Language Models (LLMs) frequently reproduce the gender- and sexual-identity prejudices embedded in their training corpora, leading to outputs that marginalize LGBTQIA+ users. Hence, reducing such biases is of great importance. To achieve this, we evaluate two parameter-efficient fine-tuning (PEFT) techniques - Low-Rank Adaptation (LoRA) and soft-prompt tuning - as lightweight alternatives to full-model fine-tuning for mitigating such biases. Using the WinoQueer benchmark, we quantify bias in three open-source LLMs and observe baseline bias scores reaching up to 98 (out of 100) across a range of queer identities defined by gender and/or sexual orientation, where 50 would indicate neutrality. Fine-tuning with LoRA (< 0.1% additional parameters) on a curated QueerNews corpus reduces those scores by up to 50 points and raises neutrality from virtually 0% to as much as 36%. Soft-prompt tuning (10 virtual tokens) delivers only marginal improvements. These findings show that LoRA can deliver meaningful fairness gains with minimal computation. We advocate broader adoption of community-informed PEFT, the creation of larger queer-authored corpora, and richer evaluation suites beyond WinoQueer, coupled with ongoing audits to keep LLMs inclusive.

PRIDE -- Parameter-Efficient Reduction of Identity Discrimination for Equality in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理