Evaluation of Causal Reasoning for Large Language Models in Contextualized Clinical Scenarios of Laboratory Test Interpretation
作者: Balu Bhasuran, Mattia Prosperi, Karim Hanna, John Petrilli, Caretia JeLayne Washington, Zhe He
分类: cs.AI
发布日期: 2025-09-19
💡 一句话要点
评估大语言模型在实验室测试解读情境下的因果推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推理 大语言模型 临床场景 实验室测试 医学人工智能
📋 核心要点
- 现有大语言模型在临床场景下的因果推理能力尚不明确,缺乏系统性的评估。
- 本研究构建了包含关联、干预和反事实推理的临床场景,用于评估LLM的因果推理能力。
- 实验结果表明,GPT-o1在因果推理方面优于Llama-3.2-8b-instruct,但在反事实推理方面仍有提升空间。
📝 摘要(中文)
本研究使用99个临床实验室测试场景评估大语言模型(LLMs)的因果推理能力,这些场景与Pearl的因果阶梯对齐,涵盖关联、干预和反事实推理。我们考察了常见的实验室测试,如糖化血红蛋白、肌酐和维生素D,并将它们与相关的因果因素配对,包括年龄、性别、肥胖和吸烟。测试了两个LLM——GPT-o1和Llama-3.2-8b-instruct,并由四位受过医学训练的专家评估了响应。GPT-o1表现出更强的区分性能(总体AUROC = 0.80 +/- 0.12),而Llama-3.2-8b-instruct为(0.73 +/- 0.15),GPT-o1在关联(0.75 vs 0.72)、干预(0.84 vs 0.70)和反事实推理(0.84 vs 0.69)方面得分更高。GPT-o1的敏感性(0.90 vs 0.84)和特异性(0.93 vs 0.80)也更高,推理评级显示出相似的趋势。两种模型在干预问题上表现最佳,在反事实问题上表现最差,尤其是在改变结果的场景中。这些发现表明GPT-o1提供了更一致的因果推理,但在高风险临床应用中采用之前需要改进。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型(LLMs)在临床背景下,特别是实验室测试结果解读中的因果推理能力。现有方法缺乏对LLM在医学领域因果推理能力的系统性评估,无法保证其在临床决策中的可靠性。现有的评估方法可能无法充分捕捉临床场景的复杂性和细微差别。
核心思路:核心思路是利用Pearl的因果阶梯(Ladder of Causation)作为框架,构建包含关联、干预和反事实推理的临床场景,以此来系统地评估LLMs的因果推理能力。通过设计与实际临床案例紧密结合的测试用例,更准确地衡量LLMs在医学领域的应用潜力。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 构建临床场景:基于常见的实验室测试(如糖化血红蛋白、肌酐等)和相关的因果因素(如年龄、性别、肥胖等),构建99个临床场景。2) 设计问题:针对每个场景,设计关联、干预和反事实推理三种类型的问题。3) 模型测试:使用GPT-o1和Llama-3.2-8b-instruct两种LLMs回答问题。4) 人工评估:由四位医学专家对LLMs的回答进行评估,评估指标包括AUROC、敏感性和特异性等。
关键创新:关键创新在于将Pearl的因果阶梯应用于评估LLMs在临床场景下的推理能力。与传统的评估方法相比,这种方法能够更全面地考察LLMs在不同因果推理层面的表现。此外,该研究构建了一套包含99个临床场景的测试数据集,为后续研究提供了基准。
关键设计:在问题设计方面,研究人员确保每个问题都与临床实际紧密相关,并且能够清晰地反映LLMs在关联、干预和反事实推理方面的能力。在模型选择方面,选择了具有代表性的GPT-o1和Llama-3.2-8b-instruct,以便比较不同模型的性能。评估指标包括AUROC(用于衡量区分性能)、敏感性和特异性(用于衡量分类准确性)。
📊 实验亮点
GPT-o1在因果推理方面表现优于Llama-3.2-8b-instruct,总体AUROC为0.80 +/- 0.12,而Llama-3.2-8b-instruct为0.73 +/- 0.15。GPT-o1在关联、干预和反事实推理方面的得分均高于Llama-3.2-8b-instruct。两种模型在干预问题上表现最佳,在反事实问题上表现最差,表明反事实推理是LLMs的一个挑战。
🎯 应用场景
该研究成果可应用于开发辅助临床决策支持系统,帮助医生更准确地解读实验室测试结果,从而提高诊断效率和治疗效果。此外,该研究提出的评估方法可以推广到其他医学领域,为评估LLMs在医疗保健领域的应用提供参考。未来,通过不断改进LLMs的因果推理能力,有望实现更智能化的医疗服务。
📄 摘要(原文)
This study evaluates causal reasoning in large language models (LLMs) using 99 clinically grounded laboratory test scenarios aligned with Pearl's Ladder of Causation: association, intervention, and counterfactual reasoning. We examined common laboratory tests such as hemoglobin A1c, creatinine, and vitamin D, and paired them with relevant causal factors including age, gender, obesity, and smoking. Two LLMs - GPT-o1 and Llama-3.2-8b-instruct - were tested, with responses evaluated by four medically trained human experts. GPT-o1 demonstrated stronger discriminative performance (AUROC overall = 0.80 +/- 0.12) compared to Llama-3.2-8b-instruct (0.73 +/- 0.15), with higher scores across association (0.75 vs 0.72), intervention (0.84 vs 0.70), and counterfactual reasoning (0.84 vs 0.69). Sensitivity (0.90 vs 0.84) and specificity (0.93 vs 0.80) were also greater for GPT-o1, with reasoning ratings showing similar trends. Both models performed best on intervention questions and worst on counterfactuals, particularly in altered outcome scenarios. These findings suggest GPT-o1 provides more consistent causal reasoning, but refinement is required before adoption in high-stakes clinical applications.