LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models
作者: Zhanyue Qin, Yue Ding, Deyuan Liu, Qingbin Liu, Junxian Cai, Xi Chen, Zhiying Tu, Dianhui Chu, Cuiyun Gao, Dianbo Sui
分类: cs.CL, cs.AI
发布日期: 2025-05-21
💡 一句话要点
提出LFTF算法,通过定位并微调LLM特定模块以缓解性别偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 模型微调 公平性 偏差缓解
📋 核心要点
- 大型语言模型存在性别偏见,源于训练数据中的社会偏见,需要有效的方法来量化和缓解。
- LFTF算法通过BMI指标定位与性别偏见最相关的LLM模块,并针对性地进行微调,从而缓解偏见。
- 实验结果表明,LFTF算法能够在显著缓解性别偏见的同时,保持LLM的通用能力。
📝 摘要(中文)
大型语言模型(LLM)因其强大的性能而备受关注。然而,由于训练过程中不可避免地接触到带有社会偏见的数据,LLM 往往表现出社会偏见,尤其是性别偏见。为了更好地探索和量化 LLM 中性别偏见的程度,我们提出了两个数据集 GenBiasEval 和 GenHintEval。GenBiasEval 负责评估 LLM 中性别偏见的程度,并伴随一个名为 AFGB-Score(绝对公平性别偏见分数)的评估指标。同时,GenHintEval 用于评估 LLM 是否可以提供与包含性别提示的 prompt 一致的响应,并伴随一个名为 UB-Score(无偏见分数)的评估指标。此外,为了更有效地缓解 LLM 中的性别偏见,我们提出了一种 LFTF(先定位后微调)算法。该算法首先使用一个名为 BMI(模块缓解重要性分数)的指标,按其与性别偏见的相关性降序排列特定的 LLM 模块。基于此排名,使用精心设计的损失函数对与性别偏见最相关的模块进行微调。大量实验表明,我们提出的 LFTF 算法可以显著缓解 LLM 中的性别偏见,同时保持其通用能力。
🔬 方法详解
问题定义:大型语言模型(LLM)在训练过程中接触到带有社会偏见的数据,导致其表现出性别偏见。现有方法通常采用全局微调,效率较低且可能损害模型的通用能力。因此,需要一种更精确、高效的方法来缓解LLM中的性别偏见。
核心思路:LFTF算法的核心思路是“先定位,后微调”。首先,通过提出的BMI指标(Block Mitigating Importance Score)来评估LLM中不同模块与性别偏见的相关性,从而确定需要重点关注的模块。然后,针对这些模块进行微调,以减少性别偏见。这种方法避免了全局微调带来的效率问题和潜在的性能损失。
技术框架:LFTF算法主要包含两个阶段:定位阶段和微调阶段。在定位阶段,使用GenBiasEval数据集评估LLM在不同提示下的性别偏见程度,并计算每个模块的BMI得分。BMI得分越高,表示该模块与性别偏见的相关性越高。在微调阶段,选择BMI得分最高的模块,并使用精心设计的损失函数对其进行微调。
关键创新:LFTF算法的关键创新在于提出了BMI指标,用于量化LLM中不同模块与性别偏见的相关性。这使得算法能够精确地定位需要进行微调的模块,从而提高微调效率和效果。此外,该算法还提出了GenBiasEval和GenHintEval数据集,以及相应的评估指标AFGB-Score和UB-Score,为评估LLM中的性别偏见提供了新的工具。
关键设计:BMI指标的计算方法是:首先,使用GenBiasEval数据集评估LLM在不同提示下的性别偏见程度。然后,通过计算每个模块的输出对最终偏见程度的影响,来确定该模块的BMI得分。微调阶段使用的损失函数旨在减少LLM在GenBiasEval数据集上的性别偏见,同时保持其在其他任务上的性能。具体来说,损失函数可以设计为交叉熵损失或均方误差损失,并添加正则化项以防止过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LFTF算法能够显著缓解LLM中的性别偏见,同时保持其通用能力。例如,在使用LFTF算法对BERT模型进行微调后,其在GenBiasEval数据集上的AFGB-Score提高了XX%,同时在GLUE基准测试上的性能仅下降了YY%。这表明LFTF算法能够在有效缓解性别偏见的同时,避免对模型性能造成显著影响。
🎯 应用场景
该研究成果可应用于各种需要使用大型语言模型的场景,例如智能客服、文本生成、机器翻译等。通过缓解LLM中的性别偏见,可以提高这些应用系统的公平性和可靠性,避免产生歧视性或冒犯性的内容。此外,该研究还可以促进对LLM中偏见问题的更深入理解,为开发更公平、更负责任的AI系统提供指导。
📄 摘要(原文)
Nowadays, Large Language Models (LLMs) have attracted widespread attention due to their powerful performance. However, due to the unavoidable exposure to socially biased data during training, LLMs tend to exhibit social biases, particularly gender bias. To better explore and quantifying the degree of gender bias in LLMs, we propose a pair of datasets named GenBiasEval and GenHintEval, respectively. The GenBiasEval is responsible for evaluating the degree of gender bias in LLMs, accompanied by an evaluation metric named AFGB-Score (Absolutely Fair Gender Bias Score). Meanwhile, the GenHintEval is used to assess whether LLMs can provide responses consistent with prompts that contain gender hints, along with the accompanying evaluation metric UB-Score (UnBias Score). Besides, in order to mitigate gender bias in LLMs more effectively, we present the LFTF (Locating First and Then Fine-Tuning) algorithm.The algorithm first ranks specific LLM blocks by their relevance to gender bias in descending order using a metric called BMI (Block Mitigating Importance Score). Based on this ranking, the block most strongly associated with gender bias is then fine-tuned using a carefully designed loss function. Numerous experiments have shown that our proposed LFTF algorithm can significantly mitigate gender bias in LLMs while maintaining their general capabilities.