Intersectional Fairness in Large Language Models
作者: Chaima Boufaied, Ronnie De Souza Santos, Ann Barcomb
分类: cs.CL
发布日期: 2026-04-22
💡 一句话要点
系统性评估大型语言模型在交叉人口属性下的公平性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 公平性 偏差评估 交叉属性 社会影响
📋 核心要点
- 大型语言模型在社会敏感场景中的应用日益广泛,但其在交叉人口属性上的公平性问题日益突出,需要系统性评估。
- 该研究通过在模糊和明确语境下,使用偏差分数、子群体公平性指标、准确性和一致性等多重指标评估LLM的公平性。
- 实验结果表明,LLM的准确性受刻板印象影响,且在交叉群体间结果分布不均,一致性也存在问题,需要更全面的评估方法。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地部署在对社会敏感的场景中,引发了对公平性和偏差的担忧,尤其是在交叉人口属性方面。本文系统地评估了六个LLM在两个基准数据集中的模糊和明确语境下的交叉公平性。我们使用偏差分数、子群体公平性指标、准确性和一致性,通过跨语境以及负面和非负面问题极性的多次运行分析来评估LLM的行为。结果表明,虽然现代LLM通常在模糊语境中表现良好,但由于稀疏的非未知预测,这限制了公平性指标的信息量。在明确语境中,LLM的准确性受到刻板印象对齐的影响,当正确答案强化刻板印象时,模型比当它与刻板印象相矛盾时更准确。这种模式在种族-性别交叉点上尤为明显,其中对刻板印象的定向偏差更强。子群体公平性指标进一步表明,尽管在某些情况下观察到的差异很小,但交叉群体之间的结果分布仍然不均匀。在重复运行中,响应的一致性也各不相同,包括与刻板印象一致的响应。总的来说,我们的研究结果表明,表面上的模型能力部分与刻板印象一致的线索有关,并且没有评估过的LLM在交叉设置中实现始终可靠或公平的行为。这些发现强调了评估需要超越准确性,强调了在交叉群体、语境和重复运行中结合偏差、子群体公平性和一致性指标的重要性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在涉及交叉人口属性时存在的公平性问题。现有方法主要关注整体或单一属性的公平性,忽略了交叉属性带来的复杂偏差。此外,现有评估方法往往只关注准确率,而忽略了偏差、子群体公平性和一致性等重要指标。
核心思路:论文的核心思路是通过系统性的实验设计,在模糊和明确的语境下,使用多种指标(偏差分数、子群体公平性指标、准确性和一致性)来评估LLM在交叉人口属性上的公平性。通过分析模型在不同语境、不同问题极性和多次运行下的表现,揭示模型潜在的偏差和不一致性。
技术框架:该研究的技术框架主要包括以下几个步骤: 1. 数据集构建/选择:选择包含交叉人口属性标注的基准数据集,并构建模糊和明确的语境。 2. 模型选择:选择多个具有代表性的大型语言模型进行评估。 3. 指标定义:定义偏差分数、子群体公平性指标、准确性和一致性等评估指标。 4. 实验设计:设计跨语境、跨问题极性和多次运行的实验。 5. 结果分析:分析实验结果,揭示模型在交叉人口属性上的公平性问题。
关键创新:该研究的关键创新在于: 1. 交叉公平性评估:关注交叉人口属性带来的复杂偏差,弥补了现有研究的不足。 2. 多指标评估:结合偏差、子群体公平性、准确性和一致性等多重指标,更全面地评估模型的公平性。 3. 系统性实验设计:通过跨语境、跨问题极性和多次运行的实验,揭示模型潜在的偏差和不一致性。
关键设计:论文的关键设计包括: 1. 模糊和明确语境:通过构建模糊和明确的语境,考察模型在不同信息量下的表现。 2. 负面和非负面问题极性:通过设计负面和非负面问题,考察模型对不同问题极性的敏感性。 3. 多次运行分析:通过多次运行,考察模型响应的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的准确性受到刻板印象的影响,当正确答案强化刻板印象时,模型表现更好。在种族-性别交叉点上,这种现象尤为明显。此外,子群体公平性指标显示,即使在某些情况下观察到的差异很小,交叉群体之间的结果分布仍然不均匀。多次运行结果表明,模型响应的一致性存在问题,包括与刻板印象一致的响应。
🎯 应用场景
该研究成果可应用于对大型语言模型进行公平性评估和改进,尤其是在招聘、信贷、法律等社会敏感领域。通过识别和消除模型中的偏差,可以提高决策的公平性和透明度,避免对特定人群造成歧视。未来的研究可以探索更有效的去偏方法,并开发更全面的公平性评估工具。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed in socially sensitive settings, raising concerns about fairness and biases, particularly across intersectional demographic attributes. In this paper, we systematically evaluate intersectional fairness in six LLMs using ambiguous and disambiguated contexts from two benchmark datasets. We assess LLM behavior using bias scores, subgroup fairness metrics, accuracy, and consistency through multi-run analysis across contexts and negative and non-negative question polarities. Our results show that while modern LLMs generally perform well in ambiguous contexts, this limits the informativeness of fairness metrics due to sparse non-unknown predictions. In disambiguated contexts, LLM accuracy is influenced by stereotype alignment, with models being more accurate when the correct answer reinforces a stereotype than when it contradicts it. This pattern is especially pronounced in race-gender intersections, where directional bias toward stereotypes is stronger. Subgroup fairness metrics further indicate that, despite low observed disparity in some cases, outcome distributions remain uneven across intersectional groups. Across repeated runs, responses also vary in consistency, including stereotype-aligned responses. Overall, our findings show that apparent model competence is partly associated with stereotype-consistent cues, and no evaluated LLM achieves consistently reliable or fair behavior across intersectional settings. These findings highlight the need for evaluation beyond accuracy, emphasizing the importance of combining bias, subgroup fairness, and consistency metrics across intersectional groups, contexts, and repeated runs.