Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes
作者: Maximus Powers, Shaina Raza, Alex Chang, Rehana Riaz, Umang Mavani, Harshitha Reddy Jonala, Ansh Tiwari, Hua Wei
分类: cs.CL, cs.AI
发布日期: 2024-10-10 (更新: 2025-09-15)
💡 一句话要点
提出GUS-Net框架,用于细粒度、可解释的NLP偏见检测与缓解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 偏见检测 社会偏见 可解释性 多标签分类
📋 核心要点
- 现有方法将偏见检测视为句子级别分类,无法定位具体带偏见的词语及其类型,限制了可解释性和针对性缓解。
- GUS-Net框架通过多标签token级别检测器,实现对社会偏见的span级别分析,提供更细粒度的偏见诊断。
- 实验表明,基于encoder的模型在细微偏见检测上优于decoder模型,且计算效率更高,为实际应用提供可行方案。
📝 摘要(中文)
语言技术中的表征性危害通常出现在看似中性的文本中的短语中,这些短语可能同时传达概括、不公平或刻板印象。将偏见检测视为句子级别的分类会模糊哪些词语带有偏见以及存在哪种类型的偏见,从而限制了可审计性和有针对性的缓解措施。我们介绍了GUS-Net框架,包括GUS数据集和一个多标签token级别检测器,用于社会偏见的span级别分析。GUS数据集包含跨多个领域的3,739个独特片段,具有超过69,000个token级别的注释。每个token都使用BIO标签(Begin,Inside,Outside)进行标记,用于表征性危害的三个途径:概括、不公平和刻板印象。为了确保可靠的数据注释,我们采用了一个自动化的多智能体pipeline,该pipeline提出候选span,然后由人类专家验证和纠正。我们将偏见检测定义为多标签token级别分类,并对基于encoder的模型(例如,BERT系列变体)和基于decoder的大型语言模型(LLM)进行基准测试。我们的评估涵盖了测试集上的token级别识别和span级别实体识别,以及out-of-distribution泛化。实验结果表明,基于encoder的模型在细微和重叠的span上始终优于基于decoder的基线,同时计算效率更高。该框架提供了可解释的、细粒度的诊断,从而可以系统地审计和缓解现实世界NLP系统中的表征性危害。
🔬 方法详解
问题定义:论文旨在解决现有NLP偏见检测方法无法精确定位和识别文本中细粒度偏见的问题。现有方法通常采用句子级别的分类,无法确定哪些词语或短语带有偏见,以及偏见的具体类型(概括、不公平、刻板印象)。这种粗粒度的检测方式限制了对偏见的深入理解和有效缓解。
核心思路:论文的核心思路是将偏见检测问题转化为多标签token级别分类任务。通过对每个token进行标注,识别其是否属于偏见span的开始、中间或外部,并同时标注该token所代表的偏见类型。这种细粒度的标注方式能够更准确地定位和识别文本中的偏见。
技术框架:GUS-Net框架包含两个主要组成部分:GUS数据集和多标签token级别检测器。GUS数据集是一个包含3,739个文本片段,超过69,000个token级别标注的数据集,每个token都使用BIO标签和偏见类型标签进行标注。多标签token级别检测器则是一个用于预测每个token的BIO标签和偏见类型的模型。该框架还包含一个自动化的多智能体pipeline,用于生成候选偏见span,并由人工专家进行验证和纠正,以确保数据质量。
关键创新:该论文的关键创新在于提出了一个细粒度的、span级别的偏见检测框架,能够更准确地定位和识别文本中的偏见。与传统的句子级别分类方法相比,GUS-Net框架能够提供更可解释的偏见诊断结果,并支持更有针对性的偏见缓解措施。此外,自动化的多智能体标注pipeline也提高了数据标注的效率和质量。
关键设计:论文采用BIO标注方案来标记token是否属于偏见span,并使用多标签分类器来预测每个token的偏见类型(概括、不公平、刻板印象)。实验中,论文对比了基于encoder的模型(如BERT)和基于decoder的模型(如LLM)在偏见检测任务上的性能。损失函数采用标准的交叉熵损失函数,针对多标签分类任务进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在GUS数据集上,基于encoder的模型(如BERT)在token级别识别和span级别实体识别任务上均优于基于decoder的模型(如LLM)。尤其是在处理细微和重叠的偏见span时,encoder模型的性能优势更加明显。此外,encoder模型在计算效率方面也更具优势。
🎯 应用场景
该研究成果可应用于各种NLP系统中,例如情感分析、文本摘要、机器翻译等,以减少和消除其中的社会偏见。通过识别和纠正文本中的偏见,可以提高NLP系统的公平性、公正性和可信度,避免对特定群体造成歧视或伤害。此外,该框架还可用于评估和审计现有的NLP模型,以发现潜在的偏见问题。
📄 摘要(原文)
Representational harms in language technologies often occur in short spans within otherwise neutral text, where phrases may simultaneously convey generalizations, unfairness, or stereotypes. Framing bias detection as sentence-level classification obscures which words carry bias and what type is present, limiting both auditability and targeted mitigation. We introduce the GUS-Net Framework, comprising the GUS dataset and a multi-label token-level detector for span-level analysis of social bias. The GUS dataset contains 3,739 unique snippets across multiple domains, with over 69,000 token-level annotations. Each token is labeled using BIO tags (Begin, Inside, Outside) for three pathways of representational harm: Generalizations, Unfairness, and Stereotypes. To ensure reliable data annotation, we employ an automated multi-agent pipeline that proposes candidate spans which are subsequently verified and corrected by human experts. We formulate bias detection as multi-label token-level classification and benchmark both encoder-based models (e.g., BERT family variants) and decoder-based large language models (LLMs). Our evaluations cover token-level identification and span-level entity recognition on our test set, and out-of-distribution generalization. Empirical results show that encoder-based models consistently outperform decoder-based baselines on nuanced and overlapping spans while being more computationally efficient. The framework delivers interpretable, fine-grained diagnostics that enable systematic auditing and mitigation of representational harms in real-world NLP systems.