Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble

📄 arXiv: 2409.13705v2 📥 PDF

作者: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-05 (更新: 2024-10-22)


💡 一句话要点

提出一种公平感知集成方法,用于消除文本安全分类器中的偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本安全分类 公平性 去偏见 集成学习 反事实公平性

📋 核心要点

  1. 现有文本安全分类器在不平衡数据上训练时,会学习到社会偏见,导致反事实公平性问题。
  2. 提出一种轻量级的后处理集成方法,通过公平数据重加权(FDW)减轻分类器中的偏见,并与策略对齐。
  3. 实验结果表明,该方法在最小化模型性能影响的同时,有效提高了文本安全分类器的反事实公平性。

📝 摘要(中文)

大型语言模型(LLM)的日益普及需要高性能的防护措施,以确保LLM输入和输出的安全性。当这些安全措施在不平衡的数据上训练时,它们可能会学习到社会偏见。本文提出了一种轻量级的后处理方法,用于减轻封闭源文本安全分类器中的反事实公平性问题。该方法构建了一个集成模型,不仅优于输入分类器并使其与策略对齐,而且还充当去偏见的正则化器。本文引入了两个与阈值无关的指标来评估模型的反事实公平性,并展示了如何将这些指标与公平数据重加权(FDW)相结合来减轻偏见。本文创建了一个扩展的Open AI数据集和一个新的基于用户提示的模板化LLM生成数据集,这两个数据集在身份群体之间实现了反事实平衡,并涵盖了四个关键的安全领域;作者将努力公开发布这些数据集。结果表明,该方法在对模型性能影响最小的情况下,提高了反事实公平性。

🔬 方法详解

问题定义:本文旨在解决文本安全分类器中存在的偏见问题,特别是当分类器在不平衡的数据集上训练时,容易学习到社会偏见,导致对不同身份群体的反事实公平性不足。现有方法可能无法有效减轻这些偏见,或者会显著降低模型的性能。

核心思路:本文的核心思路是构建一个公平感知的集成模型,该模型不仅能够提升整体的分类性能,还能通过公平数据重加权(FDW)来减轻偏见。通过集成多个分类器,并使用特定的指标来衡量和优化反事实公平性,从而实现更公平的文本安全分类。

技术框架:该方法主要包含以下几个阶段:1) 使用多个文本安全分类器作为输入;2) 引入两个与阈值无关的指标来评估模型的反事实公平性;3) 使用公平数据重加权(FDW)方法,根据公平性指标调整训练数据的权重;4) 构建一个集成模型,该模型结合了多个分类器的预测结果,并使用调整后的数据权重进行训练。

关键创新:本文的关键创新在于提出了一种轻量级的后处理方法,该方法能够在不显著降低模型性能的前提下,有效减轻文本安全分类器中的偏见。此外,本文还引入了两个与阈值无关的指标来评估反事实公平性,并展示了如何将这些指标与FDW相结合。

关键设计:本文使用了公平数据重加权(FDW)方法,该方法通过调整训练数据的权重来减轻偏见。具体来说,FDW会根据每个样本所属的身份群体和分类结果,调整其在训练过程中的权重。此外,本文还设计了两个与阈值无关的指标来评估反事实公平性,这些指标能够更全面地衡量模型在不同身份群体上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过实验证明,所提出的公平感知集成方法能够在最小化模型性能影响的情况下,有效提高文本安全分类器的反事实公平性。具体而言,该方法在扩展的Open AI数据集和新的LLM生成数据集上进行了评估,结果表明,该方法能够显著减轻偏见,同时保持较高的分类准确率。

🎯 应用场景

该研究成果可应用于各种需要文本安全分类的场景,例如在线社交平台、内容审核系统和LLM应用。通过减轻文本安全分类器中的偏见,可以提高用户体验,减少歧视性内容,并确保LLM的输出更加安全和负责任。未来的研究可以探索将该方法应用于更广泛的自然语言处理任务,并进一步优化公平性指标和数据重加权策略。

📄 摘要(原文)

Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.