Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

📄 arXiv: 2505.23996v1 📥 PDF

作者: Yinong Oliver Wang, Nivedha Sivakumar, Falaah Arif Khan, Rin Metcalf Susa, Adam Golinski, Natalie Mackraz, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-29

备注: 9 pages, 8 figures, and 1 table in main paper. Supplementary appendix attached. Accepted at ICML 2025


💡 一句话要点

提出UCerF不确定性感知公平性指标,用于评估大型语言模型中的内隐偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公平性评估 不确定性感知 内隐偏差 共指消解

📋 核心要点

  1. 传统公平性指标仅关注准确率,忽略了模型不确定性对不同群体的潜在偏差影响。
  2. 提出UCerF指标,通过考虑模型预测的不确定性,更细粒度地评估LLM的公平性。
  3. 构建了新的性别-职业公平性数据集,并使用UCerF评估了十个开源LLM,揭示了现有指标未捕捉到的偏差。

📝 摘要(中文)

大型语言模型(LLM)的快速普及凸显了对其公平性进行基准测试的关键需求。传统的公平性指标侧重于基于离散准确率的评估(即预测正确性),无法捕捉模型不确定性的隐性影响(例如,尽管准确率相似,但模型对一个群体的置信度高于另一个群体)。为了解决这一局限性,我们提出了一种不确定性感知的公平性指标UCerF,以实现对模型公平性的细粒度评估,与传统的公平性指标相比,它更能反映模型决策中的内在偏差。此外,考虑到当前数据集中存在的数据规模、多样性和清晰度问题,我们引入了一个新的性别-职业公平性评估数据集,包含31756个共指消解样本,为评估现代LLM提供了一个更加多样化和合适的数据集。我们使用我们的指标和数据集建立了一个基准,并将其应用于评估十个开源LLM的行为。例如,Mistral-7B由于对不正确预测的高度自信而表现出次优的公平性,这是一个被Equalized Odds忽略但被UCerF捕获的细节。总的来说,我们提出的LLM基准,通过不确定性感知来评估公平性,为开发更透明和负责任的AI系统铺平了道路。

🔬 方法详解

问题定义:现有的大型语言模型公平性评估方法主要依赖于基于准确率的指标,例如Equalized Odds。这些指标忽略了模型预测的不确定性,即模型对不同群体预测的置信度差异。即使模型对两个群体的准确率相似,但如果模型对一个群体的预测更有信心,则可能存在潜在的偏差。因此,需要一种能够感知模型不确定性的公平性评估方法,以更全面地评估LLM的公平性。

核心思路:UCerF的核心思路是将模型预测的不确定性纳入公平性评估的考量。具体来说,UCerF通过分析模型对不同群体预测的置信度分布,来识别模型是否存在对某些群体过度自信或不自信的情况。这种方法能够捕捉到传统公平性指标无法检测到的内隐偏差,从而更准确地评估LLM的公平性。

技术框架:UCerF的评估流程主要包括以下几个步骤:1) 使用LLM对数据集进行预测,并记录每个预测的置信度得分。2) 将数据集按照受保护属性(例如性别)进行分组。3) 计算每个组别预测结果的准确率和置信度分布。4) 使用UCerF指标量化不同组别之间的置信度差异,从而评估模型的公平性。

关键创新:UCerF的关键创新在于它将模型预测的不确定性纳入了公平性评估的框架中。与传统的基于准确率的公平性指标相比,UCerF能够更全面地评估LLM的公平性,并识别出传统指标无法检测到的内隐偏差。此外,论文还提出了一个新的性别-职业公平性评估数据集,为评估LLM的公平性提供了更丰富的数据资源。

关键设计:UCerF指标的具体计算方式未知,论文中可能没有详细说明其数学公式。新的性别-职业公平性评估数据集包含31,756个共指消解样本,旨在提供更具多样性和挑战性的评估场景。论文中可能没有详细说明数据集的构建过程和统计特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mistral-7B等LLM在性别-职业公平性评估中表现出次优的公平性,其原因在于模型对不正确预测的高度自信。UCerF指标能够捕捉到这种被Equalized Odds等传统指标忽略的偏差。新的性别-职业公平性评估数据集为评估LLM的公平性提供了更丰富的数据资源。

🎯 应用场景

该研究成果可应用于各种需要公平性保障的LLM应用场景,例如招聘、信贷评估、法律咨询等。通过使用UCerF指标,可以更全面地评估LLM的公平性,并及时发现和纠正潜在的偏差,从而避免对特定群体造成不公平的影响。该研究有助于推动开发更透明、负责任和值得信赖的AI系统。

📄 摘要(原文)

The recent rapid adoption of large language models (LLMs) highlights the critical need for benchmarking their fairness. Conventional fairness metrics, which focus on discrete accuracy-based evaluations (i.e., prediction correctness), fail to capture the implicit impact of model uncertainty (e.g., higher model confidence about one group over another despite similar accuracy). To address this limitation, we propose an uncertainty-aware fairness metric, UCerF, to enable a fine-grained evaluation of model fairness that is more reflective of the internal bias in model decisions compared to conventional fairness measures. Furthermore, observing data size, diversity, and clarity issues in current datasets, we introduce a new gender-occupation fairness evaluation dataset with 31,756 samples for co-reference resolution, offering a more diverse and suitable dataset for evaluating modern LLMs. We establish a benchmark, using our metric and dataset, and apply it to evaluate the behavior of ten open-source LLMs. For example, Mistral-7B exhibits suboptimal fairness due to high confidence in incorrect predictions, a detail overlooked by Equalized Odds but captured by UCerF. Overall, our proposed LLM benchmark, which evaluates fairness with uncertainty awareness, paves the way for developing more transparent and accountable AI systems.