"The Dentist is an involved parent, the bartender is not": Revealing Implicit Biases in QA with Implicit BBQ

作者: Aarushi Wagh, Saniya Srivastava

分类: cs.CL, cs.AI

发布日期: 2025-12-07

💡 一句话要点

提出ImplicitBBQ基准，揭示大型语言模型在隐式偏见QA上的性能差距。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏见评估 公平性 问答系统 隐式偏见

📋 核心要点

现有偏见评估基准依赖显式属性，忽略了现实世界中通过姓名、文化暗示等体现的隐式偏见。
ImplicitBBQ通过隐式线索提示受保护属性，扩展了BBQ基准，从而更全面地评估LLM的偏见。
实验表明，GPT-4o在ImplicitBBQ上的表现明显低于显式BBQ，揭示了现有LLM中存在的隐式偏见。

📝 摘要（中文）

现有评估大型语言模型（LLM）偏见的基准主要依赖于显式线索，即直接声明宗教、种族、性别等受保护属性。然而，现实世界的互动通常包含隐式偏见，这些偏见通过姓名、文化暗示或特征微妙地推断出来。这种关键的疏忽在公平性评估中造成了一个显著的盲点。我们引入了ImplicitBBQ，这是一个扩展自Bias Benchmark for QA (BBQ)的基准，它在6个类别中包含隐式提示的受保护属性。我们对GPT-4o在ImplicitBBQ上的评估表明，其性能与显式BBQ提示相比存在令人不安的差距，在“性取向”子类别中准确率下降高达7%，并且在大多数其他类别中也观察到一致的下降。这表明当前的LLM包含显式基准未检测到的隐式偏见。ImplicitBBQ为NLP中细致的公平性评估提供了一个关键工具。

🔬 方法详解

问题定义：现有的大型语言模型偏见评估基准主要依赖于显式线索，例如直接提及种族、性别等受保护属性。然而，现实世界中偏见的表达往往更加隐蔽，通过姓名、文化背景等方式间接体现。现有方法无法有效检测和评估这种隐式偏见，导致模型在实际应用中可能产生不公平或歧视性的结果。

核心思路：ImplicitBBQ的核心思路是通过构建包含隐式线索的问答数据集，来激发LLM中潜在的隐式偏见。这些隐式线索与受保护属性相关联，但并不直接提及这些属性。通过观察LLM在这些问题上的表现，可以更准确地评估其是否存在隐式偏见。

技术框架：ImplicitBBQ基于现有的Bias Benchmark for QA (BBQ)进行扩展。它在BBQ的基础上，引入了隐式提示的受保护属性，涵盖6个类别。数据集的构建过程包括：1) 设计包含隐式线索的问题；2) 确保这些线索与特定的受保护属性相关联；3) 验证问题是否能够有效激发LLM的隐式偏见。

关键创新：ImplicitBBQ的关键创新在于它关注了LLM中存在的隐式偏见，而这是现有基准所忽略的。通过使用隐式线索，ImplicitBBQ能够更真实地模拟现实世界中偏见的表达方式，从而更准确地评估LLM的公平性。

关键设计：ImplicitBBQ的关键设计包括：1) 隐式线索的选择：选择与受保护属性有较强关联，但又不会直接提及这些属性的线索；2) 问题设计的多样性：设计不同类型的问题，以覆盖不同类型的隐式偏见；3) 评估指标的选择：选择能够有效衡量LLM在隐式偏见问题上的表现的指标，例如准确率、召回率等。

📊 实验亮点

在ImplicitBBQ上的实验结果表明，GPT-4o在隐式偏见问题上的表现明显低于显式偏见问题。例如，在“性取向”子类别中，准确率下降高达7%。这表明即使在显式偏见方面表现良好的LLM，仍然可能存在严重的隐式偏见。ImplicitBBQ的评估结果为改进LLM的公平性提供了重要的参考。

🎯 应用场景

ImplicitBBQ可用于评估和改进大型语言模型的公平性，减少其在实际应用中产生偏见的可能性。例如，在招聘、信贷评估等领域，可以使用ImplicitBBQ来评估模型是否存在对特定人群的歧视。此外，ImplicitBBQ还可以用于指导模型的训练，使其更加公平和公正。未来，ImplicitBBQ可以扩展到其他领域，例如图像识别、语音识别等，以全面评估AI系统的公平性。

📄 摘要（原文）

Existing benchmarks evaluating biases in large language models (LLMs) primarily rely on explicit cues, declaring protected attributes like religion, race, gender by name. However, real-world interactions often contain implicit biases, inferred subtly through names, cultural cues, or traits. This critical oversight creates a significant blind spot in fairness evaluation. We introduce ImplicitBBQ, a benchmark extending the Bias Benchmark for QA (BBQ) with implicitly cued protected attributes across 6 categories. Our evaluation of GPT-4o on ImplicitBBQ illustrates troubling performance disparity from explicit BBQ prompts, with accuracy declining up to 7% in the "sexual orientation" subcategory and consistent decline located across most other categories. This indicates that current LLMs contain implicit biases undetected by explicit benchmarks. ImplicitBBQ offers a crucial tool for nuanced fairness evaluation in NLP.

"The Dentist is an involved parent, the bartender is not": Revealing Implicit Biases in QA with Implicit BBQ

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理