Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Mitigation in Large Language Models

📄 arXiv: 2509.16462v1 📥 PDF

作者: 'Mina Arzaghi', 'Alireza Dehghanpour Farashah', 'Florian Carichon', ' Golnoosh Farnadi'

分类: cs.CL, cs.CY, cs.LG

发布日期: 2025-09-19


💡 一句话要点

研究LLM内外部公平性:偏差缓解对下游任务的影响评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公平性 偏差缓解 概念解学习 反事实数据增强

📋 核心要点

  1. 现有方法未能充分理解LLM内在偏见与下游任务公平性之间的联系,缺乏统一的评估框架。
  2. 论文提出统一的评估框架,比较概念解学习(内在)和反事实数据增强(外在)两种偏差缓解方法。
  3. 实验表明,内在偏差缓解能显著降低LLM的性别偏见,并提升下游任务的公平性,同时保持准确性。

📝 摘要(中文)

大型语言模型(LLM)表现出社会经济偏见,这些偏见会传播到下游任务中。先前的研究质疑了LLM中的内在偏见是否会影响下游任务层面的公平性。本文通过实证研究调查了这种联系。我们提出了一个统一的评估框架,用于比较通过概念解学习进行的内在偏差缓解与通过反事实数据增强(CDA)进行的外在偏差缓解。我们通过真实的金融分类任务(包括薪资预测、就业状态和信用评估)来检验这种关系。使用三个开源LLM,我们评估了模型作为冻结嵌入提取器和微调分类器两种情况。结果表明,通过解学习进行的内在偏差缓解可将内在性别偏见降低高达94.9%,同时提高下游任务的公平性指标(例如人口均等性)高达82%,且不影响准确性。我们的框架为缓解工作在何处最有效提供了实践指导,并强调了在下游部署之前应用早期缓解的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的社会经济偏见如何影响下游任务公平性的问题。现有方法通常关注于独立地缓解LLM的内在偏见或下游任务的偏见,而忽略了两者之间的联系,缺乏一个统一的评估框架来比较不同的缓解策略,并指导实际应用。

核心思路:论文的核心思路是通过一个统一的评估框架,比较内在偏差缓解(通过概念解学习)和外在偏差缓解(通过反事实数据增强)对下游任务公平性的影响。通过这种比较,可以更好地理解LLM的内在偏见如何传播到下游任务,以及哪种缓解策略更有效。

技术框架:整体框架包含以下几个主要步骤:1) 选择三个开源LLM作为基础模型;2) 使用概念解学习方法缓解LLM的内在偏见;3) 使用反事实数据增强方法缓解下游任务的偏见;4) 在真实的金融分类任务(薪资预测、就业状态、信用评估)上评估模型的性能和公平性;5) 比较不同缓解策略的效果。

关键创新:论文的关键创新在于提出了一个统一的评估框架,能够同时评估内在和外在偏差缓解策略对下游任务公平性的影响。此外,论文还通过实证研究揭示了LLM的内在偏见与下游任务公平性之间的联系,并提供了关于如何选择合适的缓解策略的实践指导。

关键设计:论文使用了概念解学习方法来缓解LLM的内在偏见,具体实现细节未知。反事实数据增强方法通过生成与原始数据相似但具有不同敏感属性值的数据来缓解下游任务的偏见。公平性指标包括人口均等性等。实验中,模型被评估为冻结嵌入提取器和微调分类器两种情况,以全面评估缓解策略的效果。

📊 实验亮点

实验结果表明,通过概念解学习进行的内在偏差缓解可将LLM的内在性别偏见降低高达94.9%,同时提高下游任务的公平性指标(例如人口均等性)高达82%,且不影响准确性。该研究强调了在下游部署之前应用早期缓解的重要性。

🎯 应用场景

该研究成果可应用于金融、招聘等领域,帮助企业构建更公平的AI系统。通过在LLM部署前进行早期偏差缓解,可以有效降低算法歧视的风险,提升用户体验,并符合伦理规范。未来,该框架可扩展到其他领域和模型,为构建负责任的AI提供指导。

📄 摘要(原文)

Large Language Models (LLMs) exhibit socio-economic biases that can propagate into downstream tasks. While prior studies have questioned whether intrinsic bias in LLMs affects fairness at the downstream task level, this work empirically investigates the connection. We present a unified evaluation framework to compare intrinsic bias mitigation via concept unlearning with extrinsic bias mitigation via counterfactual data augmentation (CDA). We examine this relationship through real-world financial classification tasks, including salary prediction, employment status, and creditworthiness assessment. Using three open-source LLMs, we evaluate models both as frozen embedding extractors and as fine-tuned classifiers. Our results show that intrinsic bias mitigation through unlearning reduces intrinsic gender bias by up to 94.9%, while also improving downstream task fairness metrics, such as demographic parity by up to 82%, without compromising accuracy. Our framework offers practical guidance on where mitigation efforts can be most effective and highlights the importance of applying early-stage mitigation before downstream deployment.