Revealing Treatment Non-Adherence Bias in Clinical Machine Learning Using Large Language Models

📄 arXiv: 2502.19625v2 📥 PDF

作者: Zhongyuan Liang, Arvind Suresh, Irene Y. Chen

分类: cs.LG

发布日期: 2025-02-26 (更新: 2025-04-20)


💡 一句话要点

利用大型语言模型揭示临床机器学习中治疗不依从性偏差

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 治疗不依从性 大型语言模型 临床机器学习 偏差分析 电子健康记录

📋 核心要点

  1. 临床机器学习依赖于患者依从治疗的假设,但实际中不依从性会引入偏差,影响模型可靠性。
  2. 利用大型语言模型从临床笔记中提取患者依从性信息,识别不依从患者并分析相关因素。
  3. 研究发现不依从性偏差会逆转治疗效果,降低模型性能,并加剧弱势群体的不公平性。

📝 摘要(中文)

本研究探讨了电子健康记录(EHR)中治疗不依从性引入的隐性偏差如何扭曲因果推断和预测建模。通过使用大型语言模型(LLM)从3623名高血压患者的临床笔记中提取患者依从性信息,识别出786名(21.7%)药物不依从患者。研究进一步揭示了与不依从相关的关键人口统计学和临床因素,以及患者报告的原因,包括副作用和难以获得药物补充。结果表明,这种隐性偏差不仅会逆转估计的治疗效果,还会降低模型性能高达5%,同时通过加剧决策结果和模型错误率的差异,对弱势群体产生不成比例的影响。强调了在开发负责任和公平的临床机器学习系统中考虑治疗不依从性的重要性。

🔬 方法详解

问题定义:现有临床机器学习模型在电子健康记录(EHR)上训练,用于指导治疗决策。然而,这些模型通常假设患者会遵循记录中的处方治疗方案。实际上,患者可能存在不依从性,这会在数据中引入隐性偏差,导致模型产生错误的因果推断和预测,尤其是在涉及弱势群体时。现有方法未能充分解决这一问题,导致模型在实际应用中可能产生误导性或不公平的结果。

核心思路:本研究的核心思路是利用大型语言模型(LLM)从EHR中的临床笔记中提取患者的治疗依从性信息。通过识别不依从的患者,研究能够量化不依从性偏差对模型性能和公平性的影响。这种方法允许研究人员直接评估不依从性如何扭曲治疗效果的估计,并导致模型对不同人群产生差异化的预测结果。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集包含3623名高血压患者的EHR数据,包括临床笔记。2) 不依从性提取:使用大型语言模型从临床笔记中提取患者的药物依从性信息,识别不依从患者。3) 因素分析:分析与不依从性相关的关键人口统计学和临床因素,以及患者报告的不依从原因。4) 模型评估:评估不依从性偏差对因果推断和预测模型性能的影响,并分析对不同人群的影响。

关键创新:该研究的关键创新在于利用大型语言模型自动从非结构化的临床笔记中提取患者的治疗依从性信息。传统方法通常依赖于结构化数据或人工标注,效率较低且成本较高。通过使用LLM,研究能够更有效地识别不依从患者,并更全面地评估不依从性偏差的影响。此外,该研究还深入分析了不依从性偏差对模型公平性的影响,揭示了其如何加剧弱势群体的不公平性。

关键设计:研究中使用的LLM的具体架构和训练细节未知。但是,可以推断其设计需要能够理解医学术语和临床语境,并准确识别描述患者依从性行为的文本片段。关键设计可能包括:1) 使用医学领域知识进行预训练或微调LLM。2) 设计合适的提示工程(prompt engineering)来指导LLM提取相关信息。3) 使用人工标注的数据对LLM的输出进行验证和校正。4) 使用适当的评估指标来衡量LLM的性能,例如精确率、召回率和F1值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,治疗不依从性偏差会逆转估计的治疗效果,并降低模型性能高达5%。此外,不依从性偏差对弱势群体的影响更大,加剧了决策结果和模型错误率的差异。通过控制不依从性偏差,可以显著提高模型的公平性和准确性,从而改善患者的治疗效果。

🎯 应用场景

该研究成果可应用于临床决策支持系统,通过考虑患者的治疗依从性来提高预测模型的准确性和公平性。此外,该方法可以帮助识别高风险的不依从患者,从而制定更有针对性的干预措施,改善患者的治疗效果。未来,该研究可以推广到其他疾病领域,并与其他数据源(如可穿戴设备数据)相结合,以更全面地了解患者的治疗依从性。

📄 摘要(原文)

Machine learning systems trained on electronic health records (EHRs) increasingly guide treatment decisions, but their reliability depends on the critical assumption that patients follow the prescribed treatments recorded in EHRs. Using EHR data from 3,623 hypertension patients, we investigate how treatment non-adherence introduces implicit bias that can fundamentally distort both causal inference and predictive modeling. By extracting patient adherence information from clinical notes using a large language model (LLM), we identify 786 patients (21.7%) with medication non-adherence. We further uncover key demographic and clinical factors associated with non-adherence, as well as patient-reported reasons including side effects and difficulties obtaining refills. Our findings demonstrate that this implicit bias can not only reverse estimated treatment effects, but also degrade model performance by up to 5% while disproportionately affecting vulnerable populations by exacerbating disparities in decision outcomes and model error rates. This highlights the importance of accounting for treatment non-adherence in developing responsible and equitable clinical machine learning systems.