Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks

📄 arXiv: 2507.16989v1 📥 PDF

作者: Giulio Pelosio, Devesh Batra, Noémie Bovey, Robert Hankache, Cristovao Iglesias, Greig Cowan, Raad Khraishi

分类: cs.CL

发布日期: 2025-07-22


💡 一句话要点

提出基于姓名的偏见评测方法,揭示LLM中隐藏的国籍偏见问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 国籍偏见 偏见评估 姓名识别 公平性 基准测试 LLM

📋 核心要点

  1. 现有方法难以在没有明确人口统计学信息的情况下有效评估LLM中的国籍偏见。
  2. 该论文提出了一种基于姓名的基准测试方法,通过替换国籍标签为文化相关的姓名来模拟真实场景。
  3. 实验表明,小型LLM相比大型LLM,准确率更低且偏见程度更高,错误率也更高。

📝 摘要(中文)

大型语言模型(LLM)即使在没有明确人口统计学标记的情况下,也可能表现出对特定国籍的潜在偏见。本文提出了一种新颖的基于姓名的基准测试方法,该方法源自QA偏见基准(BBQ)数据集,旨在研究用文化相关的姓名替代明确的国籍标签的影响,这种情况更贴近现实世界的LLM应用。该方法考察了这种替代如何影响OpenAI、Google和Anthropic等行业领先者的LLM的偏见程度和准确性。实验表明,小型模型与大型模型相比,准确性较低,偏见程度更高。例如,在基于姓名的数据集和模糊上下文中,Claude Haiku表现出最差的刻板印象偏见得分,为9%,而其较大的对应模型Claude Sonnet仅为3.5%,后者在准确性方面也超过了前者117.7%。此外,研究发现小型模型在这些模糊上下文中保留了更多的现有错误。例如,在用姓名代替明确的国籍引用后,GPT-4o保留了68%的错误率,而GPT-4o-mini保留了76%,其他模型提供商也发现了类似的结果。这项研究强调了LLM中偏见的顽固性,突显了其对在多样化的全球环境中开发和部署AI系统的深远影响。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的、难以通过传统方法检测的国籍偏见问题。现有方法通常依赖于明确的国籍标签进行评估,但在实际应用中,这些标签往往缺失,导致LLM可能通过姓名等文化相关的线索表现出潜在的偏见。因此,如何有效地评估LLM在没有明确国籍信息情况下的偏见成为一个挑战。

核心思路:论文的核心思路是用文化相关的姓名替换QA偏见基准(BBQ)数据集中的明确国籍标签,从而模拟更真实的LLM应用场景。通过这种方式,可以考察LLM在仅有姓名信息的情况下,是否仍然会表现出对特定国籍的偏见。这种方法更贴近实际应用,因为在许多情况下,LLM需要根据姓名等线索进行推理,而这些线索可能带有文化偏见。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 基于BBQ数据集构建新的基于姓名的偏见基准测试数据集;2) 选择一系列LLM进行评估,包括来自OpenAI、Google和Anthropic等公司的模型;3) 使用新的基准测试数据集评估LLM的偏见程度和准确性;4) 分析实验结果,比较不同模型在偏见和准确性方面的表现,并探讨模型大小对偏见的影响。

关键创新:该论文最重要的技术创新点在于提出了基于姓名的偏见基准测试方法。与传统的基于明确国籍标签的评估方法相比,该方法更贴近实际应用场景,能够更有效地检测LLM中隐藏的国籍偏见。此外,该研究还通过实验揭示了小型LLM相比大型LLM更容易表现出偏见,并保留更多的错误。

关键设计:该研究的关键设计包括:1) 姓名选择:选择具有文化代表性的姓名,以确保能够有效地触发LLM中的国籍偏见;2) 数据集构建:基于BBQ数据集构建新的数据集,确保问题和答案的质量;3) 评估指标:使用适当的评估指标来衡量LLM的偏见程度和准确性,例如刻板印象偏见得分和准确率;4) 模型选择:选择具有代表性的LLM进行评估,以确保结果的普遍性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,小型LLM(如Claude Haiku)在基于姓名的数据集上表现出更高的刻板印象偏见(9%),而大型LLM(如Claude Sonnet)的偏见较低(3.5%),且准确率提升了117.7%。此外,GPT-4o-mini在用姓名代替国籍信息后,错误率保留比例高达76%,高于GPT-4o的68%,表明小型模型更难消除偏见。

🎯 应用场景

该研究成果可应用于评估和改进LLM的公平性和公正性,尤其是在涉及跨文化交流、招聘、信贷评估等敏感领域。通过识别和减轻LLM中的国籍偏见,可以避免歧视性决策,促进公平的AI应用。该研究也为未来开发更具包容性和公平性的AI系统提供了指导。

📄 摘要(原文)

Large Language Models (LLMs) can exhibit latent biases towards specific nationalities even when explicit demographic markers are not present. In this work, we introduce a novel name-based benchmarking approach derived from the Bias Benchmark for QA (BBQ) dataset to investigate the impact of substituting explicit nationality labels with culturally indicative names, a scenario more reflective of real-world LLM applications. Our novel approach examines how this substitution affects both bias magnitude and accuracy across a spectrum of LLMs from industry leaders such as OpenAI, Google, and Anthropic. Our experiments show that small models are less accurate and exhibit more bias compared to their larger counterparts. For instance, on our name-based dataset and in the ambiguous context (where the correct choice is not revealed), Claude Haiku exhibited the worst stereotypical bias scores of 9%, compared to only 3.5% for its larger counterpart, Claude Sonnet, where the latter also outperformed it by 117.7% in accuracy. Additionally, we find that small models retain a larger portion of existing errors in these ambiguous contexts. For example, after substituting names for explicit nationality references, GPT-4o retains 68% of the error rate versus 76% for GPT-4o-mini, with similar findings for other model providers, in the ambiguous context. Our research highlights the stubborn resilience of biases in LLMs, underscoring their profound implications for the development and deployment of AI systems in diverse, global contexts.