Fairness-Aware Structured Pruning in Transformers

📄 arXiv: 2312.15398v1 📥 PDF

作者: Abdelrahman Zayed, Goncalo Mordido, Samira Shabanian, Ioana Baldini, Sarath Chandar

分类: cs.CL, cs.CY, cs.LG

发布日期: 2023-12-24

备注: In Proceedings of AAAI 2024


💡 一句话要点

提出一种Transformer公平性感知结构化剪枝方法,在保证性能的同时显著降低模型偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Transformer 公平性 结构化剪枝 语言模型 偏见缓解

📋 核心要点

  1. 现有LLM剪枝方法主要关注性能优化,忽略了模型公平性问题,导致模型可能对特定群体产生偏见。
  2. 该论文提出一种公平性感知的结构化剪枝方法,旨在移除对公平性有负面影响的注意力头,同时保留对性能至关重要的头。
  3. 实验结果表明,该方法能够在显著降低模型偏见的同时,仅略微降低模型性能,无需微调即可实现。

📝 摘要(中文)

大型语言模型(LLM)的规模日益增大,给它们的训练和推理带来了挑战。移除模型组件被认为是解决模型规模过大的方法,然而,现有的剪枝方法只关注性能,而忽略了LLM负责任使用的一个重要方面:模型公平性。由于LLM正在被广泛部署和使用,因此解决LLM对不同群体(如女性、黑人、LGBTQ+、犹太社区等)的公平性至关重要。本文首先研究了注意力头如何影响预训练的基于Transformer的语言模型的公平性和性能。然后,我们提出了一种新的方法来剪枝对公平性产生负面影响的注意力头,同时保留对性能至关重要的头,即语言建模能力。我们的方法在时间和资源方面是实用的,因为它不需要对最终剪枝后的、更公平的模型进行微调。我们的研究结果表明,与有偏见的模型相比,DistilGPT-2、GPT-2、两种不同大小的GPT-Neo、GPT-J和Llama 2模型的性别偏见分别降低了19%、19.5%、39.5%、34.7%、23%和8%,而性能仅略有下降。

🔬 方法详解

问题定义:现有的大型语言模型剪枝方法主要关注模型压缩和加速,往往忽略了模型公平性。这些方法可能无意中移除对特定群体表现良好的神经元或注意力头,从而加剧模型固有的偏见。因此,如何在剪枝过程中兼顾模型性能和公平性是一个亟待解决的问题。

核心思路:该论文的核心思路是在剪枝过程中引入公平性指标,指导剪枝过程。具体来说,该方法识别并移除对公平性产生负面影响的注意力头,同时保留对语言建模能力至关重要的头。通过这种方式,可以在不显著降低模型性能的前提下,有效降低模型偏见。

技术框架:该方法主要包含以下几个阶段:1) 公平性评估:使用预定义的公平性指标(例如,性别偏见指标)评估每个注意力头对模型公平性的影响。2) 重要性评估:评估每个注意力头对模型性能(例如,语言建模能力)的重要性。3) 剪枝决策:基于公平性和重要性评估结果,决定哪些注意力头应该被剪枝。该方法倾向于剪枝对公平性有负面影响且对性能影响较小的头。4) 模型剪枝:根据剪枝决策,从模型中移除相应的注意力头。

关键创新:该论文的关键创新在于提出了一种公平性感知的结构化剪枝方法,将公平性指标纳入剪枝过程。与传统的剪枝方法相比,该方法能够更有效地降低模型偏见,同时保持良好的性能。此外,该方法不需要对剪枝后的模型进行微调,从而节省了时间和计算资源。

关键设计:论文的关键设计包括:1) 公平性指标的选择:选择合适的公平性指标来衡量模型对不同群体的偏见程度。2) 重要性评估方法:采用有效的方法评估每个注意力头对模型性能的重要性。3) 剪枝策略:设计合理的剪枝策略,平衡公平性和性能之间的权衡。例如,可以设置一个阈值,只有当注意力头的公平性得分低于阈值且重要性得分低于另一个阈值时,才会被剪枝。

📊 实验亮点

实验结果表明,该方法在多个大型语言模型(包括DistilGPT-2、GPT-2、GPT-Neo、GPT-J和Llama 2)上取得了显著的公平性提升。例如,在GPT-Neo模型上,性别偏见降低了39.5%,同时性能仅略有下降。此外,该方法无需微调即可实现公平性提升,具有很高的实用价值。

🎯 应用场景

该研究成果可应用于各种需要负责任地使用大型语言模型的场景,例如:文本生成、机器翻译、对话系统等。通过降低模型偏见,可以提高这些应用对不同用户群体的公平性,避免歧视或不公正的对待。此外,该方法还可以用于开发更安全、更可靠的人工智能系统。

📄 摘要(原文)

The increasing size of large language models (LLMs) has introduced challenges in their training and inference. Removing model components is perceived as a solution to tackle the large model sizes, however, existing pruning methods solely focus on performance, without considering an essential aspect for the responsible use of LLMs: model fairness. It is crucial to address the fairness of LLMs towards diverse groups, such as women, Black people, LGBTQ+, Jewish communities, among others, as they are being deployed and available to a wide audience. In this work, first, we investigate how attention heads impact fairness and performance in pre-trained transformer-based language models. We then propose a novel method to prune the attention heads that negatively impact fairness while retaining the heads critical for performance, i.e. language modeling capabilities. Our approach is practical in terms of time and resources, as it does not require fine-tuning the final pruned, and fairer, model. Our findings demonstrate a reduction in gender bias by 19%, 19.5%, 39.5%, 34.7%, 23%, and 8% for DistilGPT-2, GPT-2, GPT-Neo of two different sizes, GPT-J, and Llama 2 models, respectively, in comparison to the biased model, with only a slight decrease in performance.