Audit Me If You Can: Query-Efficient Active Fairness Auditing of Black-Box LLMs

📄 arXiv: 2601.03087v1 📥 PDF

作者: David Hartmann, Lena Pohlmann, Lelia Hanslik, Noah Gießing, Bettina Berendt, Pieter Delobelle

分类: cs.LG, cs.CL, cs.CY

发布日期: 2026-01-06

备注: Submitted to ACL ARR 2026


💡 一句话要点

提出BAFA以解决黑箱LLM的公平性审计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 公平性审计 大型语言模型 主动学习 不确定性估计 黑箱模型

📋 核心要点

  1. 现有的公平性审计方法在查询访问上资源消耗大,效率低下,难以满足实际应用需求。
  2. 本文提出BAFA,通过维护替代模型版本空间和主动查询选择,优化黑箱LLM的公平性审计过程。
  3. BAFA在两个标准数据集上表现出色,相较于分层抽样,查询数量减少了多达40倍,同时在时间上表现更佳,方差更低。

📝 摘要(中文)

大型语言模型(LLMs)在不同人口群体中表现出系统性偏见。审计被提议作为黑箱LLM应用的问责工具,但面临资源密集型查询访问的问题。本文将审计概念化为对目标公平性指标的不确定性估计,并引入BAFA(有界主动公平性审计器),以实现对黑箱LLM的查询高效审计。BAFA维护与查询得分一致的替代模型版本空间,并通过约束经验风险最小化计算公平性指标的不确定性区间。主动查询选择缩小这些区间以减少估计误差。我们在两个标准公平性数据集上评估BAFA,结果表明其在查询数量上显著优于现有方法。

🔬 方法详解

问题定义:本文旨在解决大型语言模型(LLMs)在不同人口群体中存在的系统性偏见问题。现有的公平性审计方法由于查询访问的资源密集性,导致效率低下,无法有效支持模型的持续评估。

核心思路:论文提出的BAFA方法通过将审计视为对目标公平性指标的不确定性估计,利用主动查询选择来优化审计过程,从而减少所需的查询次数。

技术框架:BAFA的整体架构包括维护与查询得分一致的替代模型版本空间,计算公平性指标的不确定性区间,并通过主动选择查询来缩小这些区间。主要模块包括模型版本空间管理、风险最小化计算和主动查询选择。

关键创新:BAFA的核心创新在于其通过主动查询选择显著减少了查询次数,达到相同的误差阈值。这一方法与传统的分层抽样等方法相比,具有本质的效率提升。

关键设计:在设计中,BAFA采用了约束经验风险最小化作为损失函数,确保计算的不确定性区间准确。此外,模型的参数设置和查询选择策略经过精心设计,以实现最佳的审计效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BAFA在两个标准数据集上的实验结果显示,其在达到目标误差阈值时,所需查询数量比分层抽样减少了多达40倍(例如,在CivilComments数据集上,查询数量从5,956减少到144)。此外,BAFA在时间性能上表现显著优于其他方法,且在多次实验中方差较低,显示出更高的稳定性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的公平性审计、算法透明性和问责制等。通过提供高效的审计工具,BAFA能够帮助开发者和研究人员更好地理解和改进模型的公平性,促进AI技术的负责任使用。未来,随着LLMs的广泛应用,BAFA的影响力将进一步扩大,推动相关领域的研究和实践进展。

📄 摘要(原文)

Large Language Models (LLMs) exhibit systematic biases across demographic groups. Auditing is proposed as an accountability tool for black-box LLM applications, but suffers from resource-intensive query access. We conceptualise auditing as uncertainty estimation over a target fairness metric and introduce BAFA, the Bounded Active Fairness Auditor for query-efficient auditing of black-box LLMs. BAFA maintains a version space of surrogate models consistent with queried scores and computes uncertainty intervals for fairness metrics (e.g., $Δ$ AUC) via constrained empirical risk minimisation. Active query selection narrows these intervals to reduce estimation error. We evaluate BAFA on two standard fairness dataset case studies: \textsc{CivilComments} and \textsc{Bias-in-Bios}, comparing against stratified sampling, power sampling, and ablations. BAFA achieves target error thresholds with up to 40$\times$ fewer queries than stratified sampling (e.g., 144 vs 5,956 queries at $\varepsilon=0.02$ for \textsc{CivilComments}) for tight thresholds, demonstrates substantially better performance over time, and shows lower variance across runs. These results suggest that active sampling can reduce resources needed for independent fairness auditing with LLMs, supporting continuous model evaluations.