Gender Bias in Decision-Making with Large Language Models: A Study of Relationship Conflicts
作者: Sharon Levy, William D. Adler, Tahilin Sanchez Karver, Mark Dredze, Michelle R. Kaufman
分类: cs.CL
发布日期: 2024-10-14
备注: EMNLP Findings 2024
💡 一句话要点
DeMET Prompts数据集揭示LLM在亲密关系决策中存在的性别偏见,安全措施可缓解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 决策制定 亲密关系 数据集 公平性 安全措施
📋 核心要点
- 现有研究缺乏对影响LLM在涉及性别决策中复杂动态的深入分析,尤其是在亲密关系场景下。
- 论文提出DeMET Prompts数据集,包含多种亲密关系场景,用于评估LLM在决策中的性别偏见。
- 实验表明,LLM存在性别偏见,但安全措施可以有效减少这种偏见,且模型更倾向于支持“传统女性”角色。
📝 摘要(中文)
大型语言模型(LLM)从训练数据中学习关于性别的信念,因此可能生成带有刻板性别态度的文本。先前的研究表明,模型生成结果偏向某一性别或表现出性别刻板印象,但没有研究影响模型推理和决策的复杂动态。本研究通过一个新的数据集DeMET Prompts,从决策角度研究LLM中的性别公平性,该数据集包含与亲密、浪漫关系相关的场景。我们通过三个姓名列表(男性、女性、中性)中的姓名对,探索了九种关系配置。我们通过多种视角调查了性别角色背景下的公平性:典型和性别中性的名字,有和没有模型安全增强,同性和异性关系,以及各种主题中的平等主义与传统场景。虽然所有模型都表现出相同的偏见(女性优先,然后是性别中性名字,最后是男性),但安全措施可以减少偏见。此外,模型倾向于规避传统的男性主导刻板印象,更支持“传统女性”个体,表明模型将人际关系视为女性领域。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在涉及亲密关系决策时是否存在性别偏见。现有方法主要关注一般性的性别刻板印象,缺乏对复杂关系动态的考察,尤其是在亲密关系场景下,模型可能受到更微妙的性别角色认知的影响。
核心思路:论文的核心思路是通过构建一个包含多种亲密关系场景的数据集(DeMET Prompts),并设计不同的实验配置,来系统性地评估LLM在决策过程中对不同性别角色的偏好。通过分析模型在不同场景下的决策倾向,揭示其潜在的性别偏见。
技术框架:论文主要包含以下几个关键模块:1) DeMET Prompts数据集构建:包含九种关系配置,涉及男性、女性和中性名字,以及平等主义和传统场景。2) 实验设计:通过改变姓名、关系类型、场景设置等因素,系统性地评估LLM的决策倾向。3) 模型评估:分析模型在不同场景下的决策结果,量化性别偏见程度。4) 安全措施评估:测试安全 guardrails 对减少性别偏见的影响。
关键创新:论文的主要创新在于:1) DeMET Prompts数据集:首次针对亲密关系场景构建了专门用于评估LLM性别偏见的数据集。2) 系统性评估框架:设计了一套系统性的实验方法,能够全面评估LLM在不同关系配置下的性别偏见。3) 安全措施有效性评估:验证了安全 guardrails 在减少性别偏见方面的有效性。
关键设计:数据集DeMET Prompts包含九种关系配置,通过姓名对(男性、女性、中性)来模拟不同的关系。场景设计涵盖平等主义和传统两种类型,以考察模型对不同性别角色的认知。实验中,使用了不同的LLM,并测试了开启和关闭安全 guardrails 的情况。评估指标主要关注模型在不同场景下的决策倾向,例如,在冲突场景中,模型更倾向于支持哪一方。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有模型都表现出对女性的偏好,其次是性别中性名字,最后是男性。安全 guardrails 可以有效减少这种偏见。此外,模型倾向于规避传统的男性主导刻板印象,更支持“传统女性”个体,表明模型将人际关系视为女性领域。这些发现揭示了LLM在处理亲密关系决策时存在的复杂性别偏见。
🎯 应用场景
该研究成果可应用于提升LLM的公平性和公正性,尤其是在涉及人际关系、情感支持、心理咨询等领域。通过减少LLM的性别偏见,可以避免其在决策过程中产生不公平或歧视性的结果,从而更好地服务于用户。未来的研究可以进一步探索如何设计更有效的安全措施,以消除LLM中的性别偏见。
📄 摘要(原文)
Large language models (LLMs) acquire beliefs about gender from training data and can therefore generate text with stereotypical gender attitudes. Prior studies have demonstrated model generations favor one gender or exhibit stereotypes about gender, but have not investigated the complex dynamics that can influence model reasoning and decision-making involving gender. We study gender equity within LLMs through a decision-making lens with a new dataset, DeMET Prompts, containing scenarios related to intimate, romantic relationships. We explore nine relationship configurations through name pairs across three name lists (men, women, neutral). We investigate equity in the context of gender roles through numerous lenses: typical and gender-neutral names, with and without model safety enhancements, same and mixed-gender relationships, and egalitarian versus traditional scenarios across various topics. While all models exhibit the same biases (women favored, then those with gender-neutral names, and lastly men), safety guardrails reduce bias. In addition, models tend to circumvent traditional male dominance stereotypes and side with 'traditionally female' individuals more often, suggesting relationships are viewed as a female domain by the models.