How Deep Is Representational Bias in LLMs? The Cases of Caste and Religion

📄 arXiv: 2508.03712v1 📥 PDF

作者: Agrima Seth, Monojit Choudhary, Sunayana Sitaram, Kentaro Toyama, Aditya Vashistha, Kalika Bali

分类: cs.CL

发布日期: 2025-07-22

备注: Accepted to AIES 2025

🔗 代码/项目: GITHUB


💡 一句话要点

系统审计GPT-4 Turbo以揭示LLMs中的表现偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表现偏见 大型语言模型 系统审计 多样性提示 宗教 种姓 AI伦理 模型开发

📋 核心要点

  1. 现有方法主要集中于种族和性别等身份维度,忽视了宗教和种姓等其他重要身份的表现偏见。
  2. 通过对GPT-4 Turbo进行系统审计,生成大量故事以探讨表现偏见的深度及其在身份维度上的扩展。
  3. 研究发现GPT-4的输出在文化主导群体的表现上存在显著偏见,提示的效果有限,强调了模型开发的根本性变革需求。

📝 摘要(中文)

大型语言模型(LLMs)中的表现偏见主要通过单一响应交互进行测量,且多集中于全球北方的身份如种族和性别。本文通过对GPT-4 Turbo进行系统审计,探讨表现偏见的深度及其在身份维度上的扩展。研究生成了7200多个关于印度重要生活事件的故事,并将输出的宗教和种姓表现与印度人口普查数据进行比较,量化了表现偏见的存在及其“粘性”。结果显示,尽管使用了鼓励多样性的提示,GPT-4的响应仍然过度代表文化主导群体,且表现偏见的性质更偏向赢家通吃,提示的效果有限,表明仅仅多样化训练数据不足以纠正LLM偏见。

🔬 方法详解

问题定义:本文旨在揭示大型语言模型(LLMs)中表现偏见的深度,尤其是针对宗教和种姓等较少探讨的身份维度。现有方法多集中于种族和性别,未能全面反映表现偏见的复杂性。

核心思路:通过系统审计GPT-4 Turbo,生成大量关于印度重要生活事件的故事,使用不同程度鼓励多样性的提示,比较输出与实际人口分布的偏差,量化表现偏见。

技术框架:研究首先设计多样性提示,随后生成7200多个故事,最后将输出与印度人口普查数据进行对比分析,评估表现偏见的“粘性”。

关键创新:论文的创新在于扩展了表现偏见的研究范围,揭示了LLMs在宗教和种姓方面的偏见程度,且发现其偏见性质更偏向赢家通吃,与训练数据的分布偏见相比更为显著。

关键设计:在生成故事时,设计了多样性提示以鼓励不同身份的表现,并通过统计分析方法对输出结果进行量化,确保结果的可靠性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GPT-4的输出在文化主导群体的表现上存在显著偏见,远超其在统计上的代表性。尽管使用了多样性提示,表现偏见的“粘性”依然明显,提示的效果有限,强调了模型开发中需进行根本性变革的必要性。

🎯 应用场景

该研究的潜在应用领域包括社会科学研究、人工智能伦理和大型语言模型的开发。通过揭示LLMs中的表现偏见,研究为模型的公平性和多样性提供了重要的理论基础,推动了更具包容性的AI系统的设计与实现。

📄 摘要(原文)

Representational bias in large language models (LLMs) has predominantly been measured through single-response interactions and has focused on Global North-centric identities like race and gender. We expand on that research by conducting a systematic audit of GPT-4 Turbo to reveal how deeply encoded representational biases are and how they extend to less-explored dimensions of identity. We prompt GPT-4 Turbo to generate over 7,200 stories about significant life events (such as weddings) in India, using prompts designed to encourage diversity to varying extents. Comparing the diversity of religious and caste representation in the outputs against the actual population distribution in India as recorded in census data, we quantify the presence and "stickiness" of representational bias in the LLM for religion and caste. We find that GPT-4 responses consistently overrepresent culturally dominant groups far beyond their statistical representation, despite prompts intended to encourage representational diversity. Our findings also suggest that representational bias in LLMs has a winner-take-all quality that is more biased than the likely distribution bias in their training data, and repeated prompt-based nudges have limited and inconsistent efficacy in dislodging these biases. These results suggest that diversifying training data alone may not be sufficient to correct LLM bias, highlighting the need for more fundamental changes in model development. Dataset and Codebook: https://github.com/agrimaseth/How-Deep-Is-Representational-Bias-in-LLMs