Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

📄 arXiv: 2602.04392v1 📥 PDF

作者: Isabel Tsintsiper, Sheng Wong, Beth Albert, Shaun P Brennecke, Gabriel Davis Jones

分类: cs.CL

发布日期: 2026-02-04


💡 一句话要点

评估大型语言模型在临床推理中存在的性别偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床推理 性别偏见 医疗人工智能 模型评估

📋 核心要点

  1. 大型语言模型在医疗领域的应用日益广泛,但其训练数据中可能存在的性别偏见会影响临床决策的公正性。
  2. 该研究通过设计实验,评估了多个通用大型语言模型在临床推理中是否存在性别偏见,并分析了模型配置的影响。
  3. 实验结果表明,不同模型在性别分配上存在显著偏差,即使允许模型弃权也无法完全消除下游诊断差异。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被应用于医疗工作流程中,用于文档记录、教育和临床决策支持。然而,这些系统是在包含现有偏见的大型文本语料库上训练的,包括诊断和治疗中的性别差异,这引发了人们对这些模式可能被复制或放大的担忧。本文系统地研究了当代LLMs在临床推理中是否表现出性别特异性偏见,以及模型配置如何影响这些行为。我们使用50个临床医生撰写的病例,涵盖44个专科,其中性别对初始诊断路径没有信息价值,进行了三个实验。四个通用LLMs(ChatGPT (gpt-4o-mini), Claude 3.7 Sonnet, Gemini 2.0 Flash 和 DeepSeekchat)均表现出显著的性别分配偏差,预测的性别因模型而异。在温度0.5时,ChatGPT在70%的案例中分配了女性性别(95% CI 0.66-0.75),DeepSeek在61%的案例中分配了女性性别(0.57-0.65),Claude在59%的案例中分配了女性性别(0.55-0.63),而Gemini则表现出男性偏斜,在36%的案例中分配了女性性别(0.32-0.41)。当代LLMs在临床推理中表现出稳定的、模型特定的性别偏见。允许弃权减少了显式标记,但并没有消除下游诊断差异。安全的临床整合需要在医疗环境中部署通用模型时,采取保守和有据可查的配置、专科级别的临床数据审计以及持续的人工监督。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型(LLMs)在临床推理中可能存在的性别偏见问题。现有方法,即直接使用LLMs进行临床决策支持,可能会因为训练数据中的性别偏见而导致不公正的诊断和治疗建议。这种偏见可能源于历史数据中存在的性别差异,例如某些疾病在不同性别中的表现差异或诊断流程的差异。

核心思路:该论文的核心思路是通过设计一系列实验,系统地评估不同LLMs在临床推理中对性别的敏感程度。通过构建性别信息不影响初始诊断路径的临床病例,观察模型在性别分配上的偏差,从而揭示模型内部存在的性别偏见。允许模型“弃权”不进行性别预测,观察是否能缓解下游诊断差异。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建临床病例:收集50个临床医生撰写的病例,涵盖44个专科,确保性别信息对初始诊断路径没有影响。2) 模型选择:选择四个通用LLMs,包括ChatGPT (gpt-4o-mini), Claude 3.7 Sonnet, Gemini 2.0 Flash 和 DeepSeekchat。3) 实验设计:设计三个实验,评估模型在不同配置下的性别分配偏差。4) 结果分析:统计模型在性别分配上的偏差,并分析不同模型配置对偏差的影响。

关键创新:该研究的关键创新在于系统性地评估了多个通用LLMs在临床推理中存在的性别偏见,并量化了不同模型在性别分配上的偏差程度。此外,该研究还探讨了模型配置(如温度参数)对性别偏见的影响,并提出了通过允许模型弃权来减少显式标记的方法。

关键设计:实验中,温度参数设置为0.5,用于控制模型输出的多样性。通过计算模型在性别分配上的置信区间,评估偏差的显著性。研究还分析了允许模型“弃权”不进行性别预测后,对下游诊断差异的影响。没有使用特定的损失函数或网络结构,因为研究重点在于评估现有模型的偏见,而不是训练新模型。

📊 实验亮点

实验结果表明,四个通用LLMs在临床推理中均表现出显著的性别分配偏差。ChatGPT在70%的案例中分配了女性性别,DeepSeek在61%的案例中分配了女性性别,Claude在59%的案例中分配了女性性别,而Gemini则表现出男性偏斜,在36%的案例中分配了女性性别。这些结果表明,即使是先进的LLMs也可能受到训练数据中性别偏见的影响。

🎯 应用场景

该研究成果可应用于医疗人工智能系统的开发和评估,帮助开发者识别和减轻模型中存在的性别偏见,提高临床决策支持系统的公平性和可靠性。同时,该研究也为医疗机构在使用LLMs时提供了指导,强调了数据审计和人工监督的重要性。

📄 摘要(原文)

Large language models (LLMs) are increasingly embedded in healthcare workflows for documentation, education, and clinical decision support. However, these systems are trained on large text corpora that encode existing biases, including sex disparities in diagnosis and treatment, raising concerns that such patterns may be reproduced or amplified. We systematically examined whether contemporary LLMs exhibit sex-specific biases in clinical reasoning and how model configuration influences these behaviours. We conducted three experiments using 50 clinician-authored vignettes spanning 44 specialties in which sex was non-informative to the initial diagnostic pathway. Four general-purpose LLMs (ChatGPT (gpt-4o-mini), Claude 3.7 Sonnet, Gemini 2.0 Flash and DeepSeekchat). All models demonstrated significant sex-assignment skew, with predicted sex differing by model. At temperature 0.5, ChatGPT assigned female sex in 70% of cases (95% CI 0.66-0.75), DeepSeek in 61% (0.57-0.65) and Claude in 59% (0.55-0.63), whereas Gemini showed a male skew, assigning a female sex in 36% of cases (0.32-0.41). Contemporary LLMs exhibit stable, model-specific sex biases in clinical reasoning. Permitting abstention reduces explicit labelling but does not eliminate downstream diagnostic differences. Safe clinical integration requires conservative and documented configuration, specialty-level clinical data auditing, and continued human oversight when deploying general-purpose models in healthcare settings.