How Robust Are Large Language Models for Clinical Numeracy? An Empirical Study on Numerical Reasoning Abilities in Clinical Contexts
作者: Minh-Vuong Nguyen, Fatemeh Shiri, Zhuang Li, Karin Verspoor
分类: cs.CL
发布日期: 2026-04-13
备注: Accepted to ACL2026 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出ClinicNumRobBench,评估大语言模型在临床数值推理中的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床数值推理 鲁棒性评估 基准测试 医疗人工智能
📋 核心要点
- 现有临床数值推理评估主要集中于算术计算,缺乏对不同临床记录格式鲁棒性的全面评估。
- ClinicNumRobBench基准通过多种数据表示和问题模板,全面评估LLM在临床数值推理中的能力。
- 实验表明,LLM在数值检索方面表现良好,但在关系比较和聚合方面仍面临挑战,且对数据格式敏感。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于临床问答和决策支持,但安全部署的关键在于可靠地处理异构临床记录中的患者测量数据。现有对LLM临床数值推理的评估在操作层面覆盖有限,主要局限于算术计算,并且很少评估数值理解在不同临床记录格式中的鲁棒性。我们引入了ClinicNumRobBench,一个包含1624个上下文-问题实例的基准,带有ground-truth答案,用于评估四种主要的临床数值能力:数值检索、算术计算、关系比较和聚合。为了压力测试鲁棒性,ClinicNumRobBench以三种语义等价的表示形式呈现纵向MIMIC-IV生命体征记录,包括来自Open Patients数据集的真实笔记风格变体,并使用42个问题模板实例化查询。对14个LLM的实验表明,数值检索通常很强,大多数模型的准确率超过85%,而关系比较和聚合仍然具有挑战性,一些模型得分低于15%。在医疗数据上进行微调可能会降低相对于基础模型的数值能力超过30%,并且在笔记风格变化下的性能下降表明LLM对格式敏感。ClinicNumRobBench为临床可靠的数值推理提供了一个严格的测试平台。代码和数据URL可在https://github.com/MinhVuong2000/ClinicNumRobBench上找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在临床环境中进行数值推理时,缺乏鲁棒性和泛化能力的问题。现有方法主要关注简单的算术计算,忽略了临床记录的多样性和复杂性,导致LLM在实际应用中表现不稳定,尤其是在处理不同格式的临床笔记时。
核心思路:论文的核心思路是通过构建一个更全面、更具挑战性的基准测试集ClinicNumRobBench,来系统地评估LLM在临床数值推理方面的能力。该基准测试集涵盖了多种数值推理任务(数值检索、算术计算、关系比较和聚合),并考虑了临床记录的不同表示形式,从而更真实地反映了实际应用场景。
技术框架:ClinicNumRobBench基准测试集包含以下几个关键组成部分:1) 从MIMIC-IV数据库中提取的纵向生命体征记录;2) 三种语义等价的数据表示形式(包括真实笔记风格变体);3) 42个问题模板,用于生成不同类型的数值推理问题;4) ground-truth答案,用于评估LLM的性能。整体流程包括:数据预处理、问题生成、LLM推理、性能评估。
关键创新:该论文的关键创新在于构建了一个更具代表性和挑战性的临床数值推理基准测试集ClinicNumRobBench。与现有基准测试集相比,ClinicNumRobBench具有以下优势:1) 覆盖了更广泛的数值推理任务;2) 考虑了临床记录的不同表示形式;3) 使用真实世界的临床数据。
关键设计:ClinicNumRobBench的关键设计包括:1) 使用MIMIC-IV数据库作为数据来源,保证了数据的真实性和可靠性;2) 设计了三种语义等价的数据表示形式,以评估LLM对不同格式数据的鲁棒性;3) 设计了42个问题模板,涵盖了不同类型的数值推理问题;4) 使用准确率作为评估指标,衡量LLM的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在数值检索方面表现较好(准确率超过85%),但在关系比较和聚合方面仍面临挑战(部分模型得分低于15%)。在医疗数据上进行微调可能会降低数值能力超过30%,并且在笔记风格变化下的性能下降表明LLM对格式敏感。ClinicNumRobBench为临床可靠的数值推理提供了一个严格的测试平台。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医生更准确地理解和利用患者的数值信息,从而提高诊断和治疗的效率和准确性。此外,该基准测试集可用于评估和改进LLM在医疗领域的应用,推动医疗人工智能的发展。未来,该研究可以扩展到其他医疗领域,例如影像报告解读和药物剂量计算。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly being explored for clinical question answering and decision support, yet safe deployment critically requires reliable handling of patient measurements in heterogeneous clinical notes. Existing evaluations of LLMs for clinical numerical reasoning provide limited operation-level coverage, restricted primarily to arithmetic computation, and rarely assess the robustness of numerical understanding across clinical note formats. We introduce ClinicNumRobBench, a benchmark of 1,624 context-question instances with ground-truth answers that evaluates four main types of clinical numeracy: value retrieval, arithmetic computation, relational comparison, and aggregation. To stress-test robustness, ClinicNumRobBench presents longitudinal MIMIC-IV vital-sign records in three semantically equivalent representations, including a real-world note-style variant derived from the Open Patients dataset, and instantiates queries using 42 question templates. Experiments on 14 LLMs show that value retrieval is generally strong, with most models exceeding 85% accuracy, while relational comparison and aggregation remain challenging, with some models scoring below 15%. Fine-tuning on medical data can reduce numeracy relative to base models by over 30%, and performance drops under note-style variation indicate LLM sensitivity to format. ClinicNumRobBench offers a rigorous testbed for clinically reliable numerical reasoning. Code and data URL are available on https://github.com/MinhVuong2000/ClinicNumRobBench.