LLMs Reproduce Stereotypes of Sexual and Gender Minorities

作者: Ruby Ostrow, Adam Lopez

分类: cs.CL

发布日期: 2025-01-10 (更新: 2025-09-24)

备注: 13 pages, 5 figures, 9 tables (including bibliography and appendix). Accepted to Findings of EMNLP 2025

💡 一句话要点

揭示大型语言模型对性少数群体和性别少数群体的刻板印象再现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 性少数群体 刻板印象 社会认知 文本生成 表征性伤害

📋 核心要点

现有NLP系统在性别偏见研究中存在局限，主要集中于二元性别划分，忽略了性少数群体和性别少数群体的多样性。
该研究利用刻板印象内容模型，通过调查问卷和社会认知分析，揭示LLM对性少数群体和性别少数群体的负面刻板印象。
实验表明，LLM在文本生成任务中会产生对性少数群体和性别少数群体的刻板印象，加剧了表征性伤害。

📝 摘要（中文）

大量研究表明，自然语言处理系统中存在显著的性别偏见。然而，这些研究大多采用二元对立的、本质主义的性别观，将性别简化为“男性”和“女性”两种类别，混淆性别与生理性别，并忽略了不同的性身份。鉴于性别和性取向存在于一个连续谱上，本文研究了大型语言模型（LLM）对二元类别之外的性少数群体和性别少数群体的偏见。研究基于广泛使用的社会心理学模型——刻板印象内容模型，证明了关于社会认知的英语调查问题会引发人类和LLM对性少数群体和性别少数群体的更负面的刻板印象。进一步将该框架扩展到更实际的用例：文本生成。分析表明，LLM在这种情况下会生成对性少数群体和性别少数群体的刻板印象表示，表明它们在创意写作中放大了表征性伤害，而创意写作是LLM的一个广泛宣传的用途。

🔬 方法详解

问题定义：该论文旨在研究大型语言模型（LLM）在处理性少数群体和性别少数群体时存在的刻板印象偏见。现有方法主要关注二元性别（男性/女性）的偏见，忽略了性取向和性别认同的多样性，缺乏对非二元性别群体的深入分析。

核心思路：论文的核心思路是利用社会心理学中的刻板印象内容模型（Stereotype Content Model）来评估LLM对性少数群体和性别少数群体的刻板印象。通过设计特定的调查问卷和文本生成任务，分析LLM在社会认知和文本创作中对这些群体的表征。

技术框架：研究框架主要包含两个阶段：1) 使用基于刻板印象内容模型的调查问卷，评估LLM对性少数群体和性别少数群体的社会认知；2) 通过文本生成任务，分析LLM在生成文本时是否会产生对这些群体的刻板印象。研究对比了LLM和人类的回答，以评估LLM的偏见程度。

关键创新：该研究的关键创新在于将社会心理学模型应用于评估LLM对性少数群体和性别少数群体的偏见，扩展了传统性别偏见研究的范围。此外，该研究还关注了LLM在文本生成任务中对这些群体的表征，揭示了LLM可能在创意写作等应用中加剧表征性伤害的风险。

关键设计：研究使用了英语调查问卷，问题设计基于刻板印象内容模型的维度，例如温暖度（warmth）和能力（competence）。在文本生成任务中，研究人员设计了特定的prompt，引导LLM生成关于性少数群体和性别少数群体的文本。研究人员分析了生成文本中是否存在刻板印象的词语和描述。

🖼️ 关键图片

📊 实验亮点

研究表明，LLM在回答基于刻板印象内容模型的调查问卷时，对性少数群体和性别少数群体表现出更负面的刻板印象。在文本生成任务中，LLM会生成带有刻板印象的文本，表明其在创意写作等应用中存在加剧表征性伤害的风险。研究结果强调了LLM在处理社会群体时存在偏见，需要采取措施进行缓解。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型，减少其在处理性少数群体和性别少数群体时产生的偏见。有助于开发更公平、包容的AI系统，避免在创意写作、对话系统等应用中加剧对这些群体的刻板印象和歧视。同时，该研究也为其他社会群体的偏见评估提供了借鉴。

📄 摘要（原文）

A large body of research has found substantial gender bias in NLP systems. Most of this research takes a binary, essentialist view of gender: limiting its variation to the categories men and women, conflating gender with sex, and ignoring different sexual identities. But gender and sexuality exist on a spectrum, so in this paper we study the biases of large language models (LLMs) towards sexual and gender minorities beyond binary categories. Grounding our study in a widely used social psychology model -- the Stereotype Content Model -- we demonstrate that English-language survey questions about social perceptions elicit more negative stereotypes of sexual and gender minorities from both humans and LLMs. We then extend this framework to a more realistic use case: text generation. Our analysis shows that LLMs generate stereotyped representations of sexual and gender minorities in this setting, showing that they amplify representational harms in creative writing, a widely advertised use for LLMs.

LLMs Reproduce Stereotypes of Sexual and Gender Minorities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理