Gender Bias in Large Language Models for Healthcare: Assignment Consistency and Clinical Implications

📄 arXiv: 2510.08614v1 📥 PDF

作者: Mingxuan Liu, Yuhe Ke, Wentao Zhu, Mayli Mertens, Yilin Ning, Jingchi Liao, Chuan Hong, Daniel Shu Wei Ting, Yifan Peng, Danielle S. Bitterman, Marcus Eng Hock Ong, Nan Liu

分类: cs.CL

发布日期: 2025-10-08


💡 一句话要点

揭示大型语言模型在医疗领域中存在的性别偏见及其临床影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 医疗保健 临床决策 一致性评估

📋 核心要点

  1. 大型语言模型在医疗领域的应用面临性别偏见的挑战,可能影响诊断和治疗决策。
  2. 通过为LLM分配不同性别,评估其在诊断和判断患者性别相关性上的一致性,从而发现潜在偏见。
  3. 实验发现,LLM在判断患者性别相关性上存在显著不一致性,部分模型甚至存在系统性的男女差异。

📝 摘要(中文)

大型语言模型(LLMs)在医疗保健领域的应用前景广阔,但其偏见问题仍是关键隐患。性别长期以来影响着医生的行为和患者的治疗结果,因此,LLMs若扮演临床医生或医学教育者等类人角色,可能复制或放大与性别相关的偏见。本研究使用《新英格兰医学杂志》挑战赛(NEJM)的案例,为多个开源和专有LLMs分配性别(女性、男性或未指定)。评估了LLM性别分配对模型诊断结果以及模型对患者性别临床相关性和必要性判断的一致性。结果表明,对于大多数模型,诊断结果在不同LLM性别之间相对一致。然而,所有模型在患者性别相关性和必要性的判断上,都表现出显著的不一致性,尤其是在相关性判断方面。部分模型甚至在对患者性别的解读上表现出系统性的男女差异。这些发现揭示了一种未被充分重视的偏见,可能损害LLMs在临床实践中的可靠性,因此,在与LLMs交互时,需要进行常规的身份分配一致性检查,以确保AI支持的临床护理的可靠性和公平性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在医疗领域应用中存在的性别偏见问题。现有方法缺乏对LLM在不同性别身份下表现一致性的评估,可能导致模型在临床决策中产生偏差,从而影响患者的治疗结果。

核心思路:核心思路是通过为LLM分配不同的性别身份(男性、女性、未指定),然后使用相同的医疗案例(来自NEJM Challenge)作为输入,观察LLM在诊断结果以及对患者性别相关性和必要性判断上的一致性。如果LLM在不同性别身份下对同一案例的判断存在显著差异,则表明该模型存在性别偏见。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择多个开源和专有的LLM;2) 为每个LLM分配不同的性别身份(男性、女性、未指定);3) 使用NEJM Challenge的案例作为输入,让LLM进行诊断,并判断患者性别的相关性和必要性;4) 分析LLM在不同性别身份下的输出结果,评估其一致性,并识别潜在的性别偏见。

关键创新:该研究的关键创新在于其评估LLM性别偏见的方法,即通过为LLM分配性别身份,并观察其在不同身份下的表现一致性。这种方法能够有效地揭示LLM在处理医疗问题时可能存在的性别偏见,为后续的偏见缓解工作提供指导。

关键设计:研究的关键设计包括:1) 使用NEJM Challenge的案例,保证了案例的真实性和临床相关性;2) 为LLM分配三种性别身份(男性、女性、未指定),尽可能覆盖了常见的性别情况;3) 使用一致性指标来量化LLM在不同性别身份下的表现差异,从而更客观地评估性别偏见。

📊 实验亮点

研究发现,尽管LLM在诊断结果上相对一致,但在判断患者性别相关性和必要性方面存在显著不一致性。部分模型甚至表现出系统性的男女差异,表明LLM可能在无意中强化了医疗领域的性别偏见。这些发现强调了在医疗领域应用LLM时进行性别偏见评估的重要性。

🎯 应用场景

该研究成果可应用于医疗AI系统的开发和评估,帮助开发者识别和消除LLM中的性别偏见,提高AI辅助诊断和治疗的公平性和可靠性。此外,该研究也为其他领域的AI偏见评估提供了借鉴,有助于构建更值得信赖的人工智能系统。

📄 摘要(原文)

The integration of large language models (LLMs) into healthcare holds promise to enhance clinical decision-making, yet their susceptibility to biases remains a critical concern. Gender has long influenced physician behaviors and patient outcomes, raising concerns that LLMs assuming human-like roles, such as clinicians or medical educators, may replicate or amplify gender-related biases. Using case studies from the New England Journal of Medicine Challenge (NEJM), we assigned genders (female, male, or unspecified) to multiple open-source and proprietary LLMs. We evaluated their response consistency across LLM-gender assignments regarding both LLM-based diagnosis and models' judgments on the clinical relevance or necessity of patient gender. In our findings, diagnoses were relatively consistent across LLM genders for most models. However, for patient gender's relevance and necessity in LLM-based diagnosis, all models demonstrated substantial inconsistency across LLM genders, particularly for relevance judgements. Some models even displayed a systematic female-male disparity in their interpretation of patient gender. These findings present an underexplored bias that could undermine the reliability of LLMs in clinical practice, underscoring the need for routine checks of identity-assignment consistency when interacting with LLMs to ensure reliable and equitable AI-supported clinical care.