Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption

📄 arXiv: 2409.03843v1 📥 PDF

作者: Wenchao Dong, Assem Zhunis, Dongyoung Jeong, Hyojin Chin, Jiyoung Han, Meeyoung Cha

分类: cs.CL

发布日期: 2024-09-05

备注: 23 pages, 5 figures


💡 一句话要点

提出方法以解决大型语言模型中的外群体偏见问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 外群体偏见 社会身份理论 偏见减轻 公平性 文本生成 多样性

📋 核心要点

  1. 现有研究主要关注内群体偏爱,忽视了外群体偏见,这导致对群体间偏见的理解不够全面。
  2. 本研究通过引导大型语言模型采纳外群体的视角,提出了一种减轻外群体偏见的新方法。
  3. 实验结果表明,外群体偏见的表现与内群体偏爱同样显著,并且成功减轻了模型的政治偏见。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)如何通过特定提示内化社会身份,导致对内群体(“我们”)和外群体(“他们”)的区分。受社会身份理论启发,这种自我分类产生了内群体偏爱和外群体偏见。现有文献主要集中于内群体偏爱,忽视了外群体偏见这一重要的群体间偏见和歧视来源。我们的实验填补了这一空白,表明外群体偏见与内群体偏爱同样显著。此外,我们通过引导模型采纳最初不受欢迎群体的观点,成功减轻了LLMs中的亲自由、反保守偏见。研究结果在性别偏见的背景下得到了重复验证,强调了开发更公平、平衡语言模型的潜力。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型中存在的外群体偏见问题。现有方法多集中于内群体偏爱,导致对外群体偏见的忽视,进而影响模型的公平性和应用效果。

核心思路:论文提出通过引导模型采纳外群体的视角来减轻偏见。通过这种方式,模型能够更好地理解和表现外群体的观点,从而减少偏见的产生。

技术框架:研究采用实验设计,首先通过特定提示引导模型识别和分类群体身份,然后评估模型在不同群体视角下的表现。主要模块包括身份提示、偏见评估和视角引导。

关键创新:本研究的创新在于首次系统性地探讨了外群体偏见的表现,并提出通过视角引导来减轻这种偏见的方法。这与传统方法的侧重内群体偏爱形成鲜明对比。

关键设计:在实验中,设置了不同的提示以引导模型识别群体身份,并设计了相应的评估指标来量化偏见程度。损失函数和网络结构的选择也经过精心设计,以确保模型能够有效学习和适应不同的群体视角。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,外群体偏见的表现与内群体偏爱同样显著,且通过引导模型采纳外群体视角,成功减轻了亲自由、反保守的偏见。具体而言,模型在性别偏见的实验中也得到了相似的结果,验证了方法的有效性和普适性。

🎯 应用场景

该研究的成果可广泛应用于自然语言处理领域,尤其是在开发更公平的对话系统和文本生成模型方面。通过减轻外群体偏见,模型能够在多样化的社会背景中更好地服务于不同用户群体,提升用户体验和社会接受度。未来,这一方法还可能扩展到其他领域,如教育、社交媒体和公共政策等。

📄 摘要(原文)

Drawing parallels between human cognition and artificial intelligence, we explored how large language models (LLMs) internalize identities imposed by targeted prompts. Informed by Social Identity Theory, these identity assignments lead LLMs to distinguish between "we" (the ingroup) and "they" (the outgroup). This self-categorization generates both ingroup favoritism and outgroup bias. Nonetheless, existing literature has predominantly focused on ingroup favoritism, often overlooking outgroup bias, which is a fundamental source of intergroup prejudice and discrimination. Our experiment addresses this gap by demonstrating that outgroup bias manifests as strongly as ingroup favoritism. Furthermore, we successfully mitigated the inherent pro-liberal, anti-conservative bias in LLMs by guiding them to adopt the perspectives of the initially disfavored group. These results were replicated in the context of gender bias. Our findings highlight the potential to develop more equitable and balanced language models.