Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health
作者: Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin
分类: cs.CL, cs.AI
发布日期: 2026-03-10
备注: Accepted as Findings at EACL 2026
💡 一句话要点
通过社会决定因素探究大型语言模型中的性别刻板印象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 社会决定因素 医疗健康 自然语言处理
📋 核心要点
- 大型语言模型存在偏见,尤其是在医疗等敏感领域,现有方法缺乏对社会决定因素交互影响的评估。
- 该研究通过分析法语患者记录中性别与社会决定因素的关联,探测大型语言模型中嵌入的性别刻板印象。
- 实验表明,大型语言模型会利用社会决定因素中的刻板印象进行性别化决策,验证了评估因素间交互作用的必要性。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言处理(NLP)任务中表现出色,但它们经常传播训练数据中嵌入的偏见,这在医疗保健等敏感领域可能产生重大影响。现有的基准测试评估了与性别或种族等个体社会决定因素(SDoH)相关的偏见,但它们通常忽略了这些因素之间的相互作用,并且缺乏特定于上下文的评估。本研究通过探究法语患者记录中性别与其他SDoH之间的关系来研究LLM中的偏见。通过一系列实验,我们发现可以使用SDoH输入来探测嵌入的刻板印象,并且LLM依赖于嵌入的刻板印象来做出性别化的决策,这表明评估SDoH因素之间的相互作用可以有效地补充现有的LLM性能和偏见评估方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在处理医疗健康数据时,由于训练数据中存在的偏见而产生的性别刻板印象问题。现有方法在评估LLMs的偏见时,通常孤立地考虑社会决定因素(SDoH),忽略了它们之间的相互作用,导致无法全面评估LLMs的偏见程度。
核心思路:论文的核心思路是通过探究性别与其他SDoH之间的关系,来揭示LLMs中隐藏的性别刻板印象。通过构建特定的输入,诱导LLMs基于SDoH信息进行性别相关的决策,从而评估其对性别刻板印象的依赖程度。这种方法强调了SDoH因素之间的交互作用,能够更全面地评估LLMs的偏见。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集法语患者记录,包含性别以及其他SDoH信息。2) 输入构建:设计特定的输入,将性别与其他SDoH信息结合起来,例如“一位[SDoH]的病人,性别是?”。3) 模型推理:使用大型语言模型对构建的输入进行推理,预测患者的性别。4) 偏见评估:分析模型的预测结果,评估其对不同SDoH组合的性别预测是否存在偏差,从而揭示其潜在的性别刻板印象。
关键创新:该研究的关键创新在于其评估LLMs偏见的方法,即通过探究SDoH因素之间的交互作用来揭示LLMs中隐藏的性别刻板印象。与以往孤立地评估单个SDoH因素的方法不同,该研究强调了SDoH因素之间的关联性,能够更全面、更深入地评估LLMs的偏见。
关键设计:研究的关键设计包括:1) 选择法语患者记录作为研究对象,因为法语在性别表达上具有一定的复杂性,可以更好地测试LLMs的性别偏见。2) 构建包含不同SDoH组合的输入,以系统地评估LLMs对不同SDoH因素的性别预测是否存在偏差。3) 使用准确率、召回率等指标来量化LLMs的性别预测性能,并分析其在不同SDoH组合下的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大型语言模型在进行性别预测时,会受到社会决定因素的影响,并表现出对特定SDoH组合的性别刻板印象。例如,模型在预测某些职业的性别时,会倾向于将其与特定性别关联。这些发现强调了评估SDoH因素之间相互作用的重要性,并为开发更公平、更可靠的LLM提供了新的思路。
🎯 应用场景
该研究成果可应用于医疗健康领域,帮助识别和减轻大型语言模型在辅助诊断、患者咨询等应用中可能存在的性别偏见,从而提高医疗服务的公平性和准确性。此外,该方法也可推广到其他领域,用于评估和消除人工智能系统中的各种偏见,促进人工智能技术的负责任发展。
📄 摘要(原文)
Large Language Models (LLMs) excel in Natural Language Processing (NLP) tasks, but they often propagate biases embedded in their training data, which is potentially impactful in sensitive domains like healthcare. While existing benchmarks evaluate biases related to individual social determinants of health (SDoH) such as gender or ethnicity, they often overlook interactions between these factors and lack context-specific assessments. This study investigates bias in LLMs by probing the relationships between gender and other SDoH in French patient records. Through a series of experiments, we found that embedded stereotypes can be probed using SDoH input and that LLMs rely on embedded stereotypes to make gendered decisions, suggesting that evaluating interactions among SDoH factors could usefully complement existing approaches to assessing LLM performance and bias.