DeVisE: Behavioral Testing of Medical Large Language Models
作者: Camila Zurdo Tagliabue, Heloisa Oss Boll, Aykut Erdem, Erkut Erdem, Iacer Calixto
分类: cs.CL
发布日期: 2026-02-28
💡 一句话要点
DeVisE:通过行为测试评估医学大型语言模型在临床推理中的稳健性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学大型语言模型 行为测试 反事实推理 临床决策支持 模型评估
📋 核心要点
- 现有医学LLM评估未能充分揭示其临床推理能力,易受表面相关性影响。
- DeVisE框架通过在人口统计学和生命体征上引入反事实扰动,探究LLM的临床理解。
- 实验表明,标准指标难以捕捉模型在反事实扰动下的行为差异,模型稳健性参差不齐。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于临床决策支持,但目前的评估很少揭示其输出是否反映了真正的医学推理或表面的相关性。我们介绍DeVisE(人口统计学和生命体征评估),这是一个行为测试框架,通过受控的反事实来探测细粒度的临床理解。使用来自MIMIC-IV的重症监护病房(ICU)出院记录,我们构建了原始(真实世界)和基于模板(合成)的变体,其中人口统计学(年龄、性别、种族)和生命体征属性中存在单变量扰动。我们在零样本设置下评估了八个LLM,包括通用和医学变体。通过(1)输入级敏感性(捕捉反事实如何改变困惑度)和(2)下游推理(测量它们对预测的ICU住院时间和死亡率的影响)来分析模型行为。总的来说,我们的结果表明,标准任务指标掩盖了模型行为中临床相关的差异,模型在如何一致且成比例地调整对反事实扰动的预测方面存在显著差异。
🔬 方法详解
问题定义:现有医学大型语言模型(LLM)的评估方法,难以区分模型是基于真正的医学推理,还是仅仅依赖于数据中的表面相关性。这导致模型在实际临床应用中可能做出不准确或不合理的决策。因此,需要一种更细粒度、更可靠的评估方法,来衡量模型在面对临床情境变化时的稳健性和泛化能力。
核心思路:DeVisE的核心思路是通过构建受控的反事实样本,来系统性地测试LLM对关键临床变量的敏感性。具体来说,通过对人口统计学特征(如年龄、性别、种族)和生命体征数据进行单变量扰动,生成与原始数据相似但关键属性不同的新样本。然后,观察模型在这些反事实样本上的表现变化,从而推断模型是否真正理解了这些变量与临床结果之间的因果关系。
技术框架:DeVisE框架主要包含以下几个阶段:1) 数据准备:使用MIMIC-IV数据库中的ICU出院记录,构建原始数据集。2) 反事实生成:基于原始数据,通过单变量扰动生成反事实样本,包括基于真实数据的扰动和基于模板的合成扰动。3) 模型评估:在零样本设置下,评估多个通用和医学LLM在原始数据和反事实样本上的表现。4) 行为分析:通过输入级敏感性(困惑度变化)和下游推理(ICU住院时间和死亡率预测变化)两个方面,分析模型对反事实扰动的响应。
关键创新:DeVisE的关键创新在于其行为测试方法,通过系统性地引入反事实扰动,来探测LLM的临床理解能力。与传统的基于任务指标的评估方法相比,DeVisE能够更细粒度地揭示模型在面对临床情境变化时的行为模式,从而更准确地评估模型的稳健性和泛化能力。
关键设计:DeVisE的关键设计包括:1) 单变量扰动:每次只改变一个变量,以精确评估该变量对模型的影响。2) 基于真实数据和模板的扰动:结合真实数据和合成数据,以保证反事实样本的质量和多样性。3) 输入级敏感性和下游推理:从不同角度分析模型对反事实扰动的响应,以全面评估模型的行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,标准任务指标(如准确率)无法有效区分不同模型在临床推理方面的差异。DeVisE框架能够揭示模型在面对反事实扰动时的行为差异,例如,不同模型在调整ICU住院时间和死亡率预测方面表现出显著差异,表明其对临床变量的理解程度不同。这些发现强调了行为测试在评估医学LLM中的重要性。
🎯 应用场景
DeVisE框架可用于评估和改进医学LLM在临床决策支持中的可靠性和安全性。通过识别模型对特定临床变量的敏感性,可以指导模型的训练和优化,提高其在实际临床应用中的准确性和可信度。此外,该框架还可以用于比较不同医学LLM的性能,为临床医生选择合适的模型提供依据。
📄 摘要(原文)
Large language models (LLMs) are increasingly applied in clinical decision support, yet current evaluations rarely reveal whether their outputs reflect genuine medical reasoning or superficial correlations. We introduce DeVisE (Demographics and Vital signs Evaluation), a behavioral testing framework that probes fine-grained clinical understanding through controlled counterfactuals. Using intensive care unit (ICU) discharge notes from MIMIC-IV, we construct both raw (real-world) and template-based (synthetic) variants with single-variable perturbations in demographic (age, gender, ethnicity) and vital sign attributes. We evaluate eight LLMs, spanning general-purpose and medical variants, under zero-shot setting. Model behavior is analyzed through (1) input-level sensitivity, capturing how counterfactuals alter perplexity, and (2) downstream reasoning, measuring their effect on predicted ICU length-of-stay and mortality. Overall, our results show that standard task metrics obscure clinically relevant differences in model behavior, with models differing substantially in how consistently and proportionally they adjust predictions to counterfactual perturbations.