Evaluation of Causal Reasoning for Large Language Models in Contextualized Clinical Scenarios of Laboratory Test Interpretation

📄 arXiv: 2509.16372v1 📥 PDF

作者: Balu Bhasuran, Mattia Prosperi, Karim Hanna, John Petrilli, Caretia JeLayne Washington, Zhe He

分类: cs.AI

发布日期: 2025-09-19


💡 一句话要点

评估大语言模型在实验室测试解读情境下的因果推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 因果推理 临床医学 实验室测试 医学诊断

📋 核心要点

  1. 现有大语言模型在临床场景下的因果推理能力尚不明确,缺乏系统性的评估方法。
  2. 本研究构建了与Pearl因果阶梯对齐的临床场景,用于评估LLM在关联、干预和反事实推理上的表现。
  3. 实验结果表明GPT-o1在因果推理方面优于Llama-3.2-8b-instruct,但在反事实推理上仍有提升空间。

📝 摘要(中文)

本研究使用99个临床实验室测试场景评估大语言模型(LLMs)的因果推理能力,这些场景与Pearl的因果关系阶梯对齐,涵盖关联、干预和反事实推理。我们考察了常见的实验室测试,如糖化血红蛋白、肌酐和维生素D,并将它们与相关的因果因素配对,包括年龄、性别、肥胖和吸烟。测试了两个LLM——GPT-o1和Llama-3.2-8b-instruct,并由四位受过医学训练的人类专家评估了回复。GPT-o1表现出更强的判别性能(总体AUROC = 0.80 +/- 0.12),而Llama-3.2-8b-instruct为(0.73 +/- 0.15),GPT-o1在关联(0.75 vs 0.72)、干预(0.84 vs 0.70)和反事实推理(0.84 vs 0.69)方面得分更高。GPT-o1的敏感性(0.90 vs 0.84)和特异性(0.93 vs 0.80)也更高,推理评分显示出类似的趋势。两种模型在干预问题上表现最佳,在反事实问题上表现最差,尤其是在改变结果的场景中。这些发现表明GPT-o1提供了更一致的因果推理,但在高风险临床应用中采用之前需要进一步改进。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在临床背景下,特别是实验室测试结果解读中的因果推理能力。现有方法缺乏对LLM因果推理能力的系统性评估,尤其是在涉及临床医学知识的复杂场景中。现有的LLM可能无法准确捕捉临床变量之间的因果关系,导致错误的诊断或治疗建议。

核心思路:论文的核心思路是利用Pearl的因果阶梯(关联、干预、反事实)构建一系列临床场景,并以此来测试LLM的因果推理能力。通过设计不同类型的因果问题,可以更全面地评估LLM在理解和应用临床因果关系方面的能力。这种方法能够量化LLM在不同因果推理层次上的表现,从而发现其优势和不足。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建临床场景:基于常见的实验室测试(如糖化血红蛋白、肌酐、维生素D)和相关的因果因素(如年龄、性别、肥胖、吸烟),设计99个临床场景。2) 设计因果问题:每个场景都包含关联、干预和反事实三种类型的因果问题,以评估LLM在不同因果推理层次上的表现。3) 模型测试:使用GPT-o1和Llama-3.2-8b-instruct两种LLM对这些问题进行回答。4) 人工评估:由四位医学专家对LLM的回答进行评估,并计算AUROC、敏感性和特异性等指标。

关键创新:本研究的关键创新在于:1) 系统性地将Pearl的因果阶梯应用于评估LLM在临床场景下的因果推理能力。2) 构建了一个包含99个临床场景的测试数据集,涵盖了常见的实验室测试和相关的因果因素。3) 通过人工评估和量化指标,全面评估了GPT-o1和Llama-3.2-8b-instruct两种LLM在不同因果推理层次上的表现。

关键设计:在场景设计方面,论文考虑了多种临床因素,并确保每个场景都与真实的临床实践相关。在问题设计方面,论文根据Pearl的因果阶梯,设计了关联、干预和反事实三种类型的因果问题,以评估LLM在不同因果推理层次上的表现。在模型评估方面,论文采用了AUROC、敏感性和特异性等指标,以量化LLM的因果推理能力。此外,还使用了人工评估来验证LLM的回答是否符合医学常识。

📊 实验亮点

实验结果表明,GPT-o1在因果推理方面优于Llama-3.2-8b-instruct,其总体AUROC为0.80 +/- 0.12,而Llama-3.2-8b-instruct为0.73 +/- 0.15。GPT-o1在关联、干预和反事实推理方面的得分均高于Llama-3.2-8b-instruct。两种模型在干预问题上表现最佳,在反事实问题上表现最差。这些结果表明,GPT-o1在临床因果推理方面具有一定的潜力,但仍需进一步改进,尤其是在反事实推理方面。

🎯 应用场景

该研究的潜在应用领域包括辅助临床决策、医学教育和患者咨询。通过评估LLM的因果推理能力,可以帮助医生更好地理解实验室测试结果,并做出更准确的诊断和治疗决策。此外,该研究还可以用于开发医学教育工具,帮助医学生学习和掌握临床因果关系。未来,该研究有望推动LLM在医疗领域的广泛应用,提高医疗服务的质量和效率。

📄 摘要(原文)

This study evaluates causal reasoning in large language models (LLMs) using 99 clinically grounded laboratory test scenarios aligned with Pearl's Ladder of Causation: association, intervention, and counterfactual reasoning. We examined common laboratory tests such as hemoglobin A1c, creatinine, and vitamin D, and paired them with relevant causal factors including age, gender, obesity, and smoking. Two LLMs - GPT-o1 and Llama-3.2-8b-instruct - were tested, with responses evaluated by four medically trained human experts. GPT-o1 demonstrated stronger discriminative performance (AUROC overall = 0.80 +/- 0.12) compared to Llama-3.2-8b-instruct (0.73 +/- 0.15), with higher scores across association (0.75 vs 0.72), intervention (0.84 vs 0.70), and counterfactual reasoning (0.84 vs 0.69). Sensitivity (0.90 vs 0.84) and specificity (0.93 vs 0.80) were also greater for GPT-o1, with reasoning ratings showing similar trends. Both models performed best on intervention questions and worst on counterfactuals, particularly in altered outcome scenarios. These findings suggest GPT-o1 provides more consistent causal reasoning, but refinement is required before adoption in high-stakes clinical applications.