Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment

📄 arXiv: 2602.16438v1 📥 PDF

作者: Eva Paraschou, Line Harder Clemmensen, Sneha Das

分类: cs.LG, cs.AI

发布日期: 2026-02-18

备注: Submitted to the BiAlign CHI Workshop 2026


💡 一句话要点

研究揭示LLM性别对齐中的偏见溢出效应,强调多属性公平性评估的重要性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公平性对齐 偏见溢出 多属性公平性 直接偏好优化

📋 核心要点

  1. 现有LLM公平性对齐方法侧重于单一属性,忽略了公平性的多维性和上下文依赖性,易产生偏见溢出。
  2. 该研究通过针对性别进行对齐,观察其对其他敏感属性公平性的影响,揭示偏见溢出效应。
  3. 实验表明,改善单一属性公平性可能恶化其他属性的公平性,尤其是在模糊上下文中,强调多属性评估的必要性。

📝 摘要(中文)

传统的大型语言模型(LLM)公平性对齐主要关注缓解单一敏感属性上的偏见,忽略了公平性本质上是多维和上下文相关的价值。这种方法可能导致系统在实现狭隘的公平性指标的同时,加剧未针对属性上的差异,即偏见溢出。虽然偏见溢出在机器学习中已被广泛研究,但在LLM对齐中仍未得到充分探索。本文研究了针对性的性别对齐如何影响三个最先进的LLM(Mistral 7B、Llama 3.1 8B、Qwen 2.5 7B)中九个敏感属性的公平性。使用直接偏好优化和BBQ基准,我们在模糊和明确的上下文中评估公平性。研究结果表明存在明显的偏见溢出:虽然总体结果显示有所改善,但上下文感知的分析揭示了模糊上下文中显著的退化,尤其是在外貌(所有模型中p<0.001)、性取向和残疾状况方面。我们证明,改善一个属性的公平性可能会无意中加剧其他属性在不确定性下的差异,突出了上下文感知、多属性公平性评估框架的必要性。

🔬 方法详解

问题定义:论文旨在解决LLM公平性对齐中存在的偏见溢出问题。现有方法主要关注单一敏感属性的偏见缓解,忽略了公平性的多维性和上下文相关性,导致在优化某一属性的公平性时,可能会无意中恶化其他属性的公平性。这种现象在LLM领域的研究还不够深入。

核心思路:论文的核心思路是通过实验研究,观察针对某一敏感属性(性别)进行对齐后,对其他多个敏感属性的公平性产生的影响。通过这种方式,揭示偏见溢出效应的存在和影响程度,从而强调多属性公平性评估的重要性。

技术框架:论文的技术框架主要包括以下几个部分:1) 选择三个先进的LLM模型(Mistral 7B、Llama 3.1 8B、Qwen 2.5 7B);2) 使用直接偏好优化(Direct Preference Optimization, DPO)方法对模型进行性别对齐;3) 使用BBQ基准数据集,在模糊和明确的上下文中评估模型在九个敏感属性上的公平性;4) 分析实验结果,量化偏见溢出效应。

关键创新:论文的关键创新在于:1) 首次在LLM公平性对齐领域深入研究了偏见溢出效应;2) 提出了一个基于DPO和BBQ基准的实验框架,用于评估多属性公平性;3) 通过实验证明了在LLM中,针对单一属性的对齐可能会导致其他属性公平性的恶化,从而强调了多属性公平性评估的必要性。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM模型,以保证研究结果的普遍性;2) 使用DPO方法进行对齐,因为它是一种高效且易于实现的对齐方法;3) 使用BBQ基准数据集,因为它包含丰富的上下文信息,可以用于评估模型在不同上下文中的公平性;4) 采用统计显著性检验(如p值)来量化偏见溢出效应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在对LLM进行性别对齐后,虽然总体公平性有所改善,但在模糊上下文中,外貌(p<0.001)、性取向和残疾状况等属性的公平性显著下降。这表明,针对单一属性的对齐可能会导致其他属性的公平性恶化,突出了多属性公平性评估的必要性。

🎯 应用场景

该研究成果可应用于开发更公平、更可靠的LLM系统。通过理解和缓解偏见溢出效应,可以避免在优化某一属性公平性的同时损害其他属性的公平性。这对于构建负责任的AI系统,尤其是在涉及敏感信息的应用场景中,具有重要意义。未来的研究可以进一步探索更有效的多属性公平性对齐方法。

📄 摘要(原文)

Conventional large language model (LLM) fairness alignment largely focuses on mitigating bias along single sensitive attributes, overlooking fairness as an inherently multidimensional and context-specific value. This approach risks creating systems that achieve narrow fairness metrics while exacerbating disparities along untargeted attributes, a phenomenon known as bias spillover. While extensively studied in machine learning, bias spillover remains critically underexplored in LLM alignment. In this work, we investigate how targeted gender alignment affects fairness across nine sensitive attributes in three state-of-the-art LLMs (Mistral 7B, Llama 3.1 8B, Qwen 2.5 7B). Using Direct Preference Optimization and the BBQ benchmark, we evaluate fairness under ambiguous and disambiguous contexts. Our findings reveal noticeable bias spillover: while aggregate results show improvements, context-aware analysis exposes significant degradations in ambiguous contexts, particularly for physical appearance ($p< 0.001$ across all models), sexual orientation, and disability status. We demonstrate that improving fairness along one attribute can inadvertently worsen disparities in others under uncertainty, highlighting the necessity of context-aware, multi-attribute fairness evaluation frameworks.