MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks
作者: Suhana Bedi, Hejie Cui, Miguel Fuentes, Alyssa Unell, Michael Wornow, Juan M. Banda, Nikesh Kotecha, Timothy Keyes, Yifan Mai, Mert Oez, Hao Qiu, Shrey Jain, Leonardo Schettini, Mehr Kashyap, Jason Alan Fries, Akshay Swaminathan, Philip Chung, Fateme Nateghi, Asad Aali, Ashwin Nayak, Shivam Vedak, Sneha S. Jain, Birju Patel, Oluseyi Fayanju, Shreya Shah, Ethan Goh, Dong-han Yao, Brian Soetikno, Eduardo Reis, Sergios Gatidis, Vasu Divi, Robson Capasso, Rachna Saralkar, Chia-Chun Chiang, Jenelle Jindal, Tho Pham, Faraz Ghoddusi, Steven Lin, Albert S. Chiou, Christy Hong, Mohana Roy, Michael F. Gensheimer, Hinesh Patel, Kevin Schulman, Dev Dash, Danton Char, Lance Downing, Francois Grolleau, Kameron Black, Bethel Mieso, Aydin Zahedivash, Wen-wai Yim, Harshita Sharma, Tony Lee, Hannah Kirsch, Jennifer Lee, Nerissa Ambers, Carlene Lugtu, Aditya Sharma, Bilal Mawji, Alex Alekseyev, Vicky Zhou, Vikas Kakkar, Jarrod Helzer, Anurang Revri, Yair Bannett, Roxana Daneshjou, Jonathan Chen, Emily Alsentzer, Keith Morse, Nirmal Ravi, Nima Aghaeepour, Vanessa Kennedy, Akshay Chaudhari, Thomas Wang, Sanmi Koyejo, Matthew P. Lungren, Eric Horvitz, Percy Liang, Mike Pfeffer, Nigam H. Shah
分类: cs.CL, cs.AI
发布日期: 2025-05-26 (更新: 2025-06-02)
💡 一句话要点
MedHELM:用于医学任务的大语言模型全面评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型评估 医学任务 临床决策支持 患者沟通 LLM-jury 基准测试 成本效益分析
📋 核心要点
- 现有医学执照考试高分并不能充分反映LLM在真实临床实践中的复杂性和多样性。
- MedHELM通过构建临床验证的分类体系和综合基准套件,实现对LLM医学任务性能的全面评估。
- 实验表明,不同LLM在不同医学任务上性能差异显著,成本效益高的模型表现突出,LLM-jury评估方法与临床医生评分高度一致。
📝 摘要(中文)
本文介绍MedHELM,一个用于评估大语言模型(LLM)在医学任务中性能的可扩展评估框架。该框架包含三个关键贡献:一是与29位临床医生共同开发的、经过临床验证的分类体系,涵盖5个类别、22个子类别和121个任务;二是包含35个基准测试的综合基准套件(17个现有基准,18个新制定的基准),全面覆盖分类体系中的所有类别和子类别;三是对9个前沿LLM进行系统比较,采用改进的评估方法(使用LLM-jury)和成本-性能分析。评估结果显示,不同LLM的性能差异显著。高级推理模型(DeepSeek R1:66%胜率;o3-mini:64%胜率)表现出卓越的性能,而Claude 3.5 Sonnet以低40%的估计计算成本实现了相当的结果。在归一化准确度(0-1)范围内,大多数模型在临床笔记生成(0.73-0.85)和患者沟通与教育(0.78-0.83)方面表现强劲,在医学研究辅助(0.65-0.75)方面表现中等,在临床决策支持(0.56-0.72)和管理与工作流程(0.53-0.63)方面表现普遍较低。LLM-jury评估方法与临床医生评分达成良好的一致性(ICC = 0.47),超过了临床医生之间的一致性(ICC = 0.43)以及包括ROUGE-L(0.36)和BERTScore-F1(0.44)在内的自动基线。Claude 3.5 Sonnet以较低的估计成本实现了与顶级模型相当的性能。这些发现强调了针对医学LLM进行真实世界、特定任务评估的重要性,并提供了一个开源框架来实现这一点。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型在医学领域应用评估不全面的问题。现有评估方法,如医学执照考试,无法充分反映真实临床环境的复杂性和多样性,缺乏对LLM在各种医学任务中能力的细致评估。这使得难以准确判断LLM在实际医疗场景中的适用性和可靠性。
核心思路:论文的核心思路是构建一个全面、细致、可扩展的医学领域LLM评估框架。该框架通过与临床医生合作,定义了详细的医学任务分类体系,并基于此构建了包含多种基准测试的评估套件。同时,引入LLM-jury评估方法,以更贴近临床医生评估标准的方式评价LLM的性能。
技术框架:MedHELM框架主要包含三个组成部分:1)临床验证的医学任务分类体系:涵盖5个类别、22个子类别和121个任务,由29位临床医生参与制定。2)综合基准测试套件:包含35个基准测试,覆盖分类体系中的所有类别和子类别,包括17个现有基准和18个新制定的基准。3)LLM评估与分析:使用LLM-jury评估方法对9个前沿LLM进行评估,并进行成本-性能分析。
关键创新:MedHELM的关键创新在于其全面性和细致性。与以往的评估方法相比,MedHELM不仅覆盖了更广泛的医学任务,而且对每个任务进行了更细致的划分。此外,LLM-jury评估方法是一种新的尝试,旨在模拟临床医生的评估过程,从而更准确地反映LLM在实际应用中的表现。
关键设计:在LLM-jury评估方法中,使用另一个LLM作为评估者,对目标LLM的输出进行评估。评估标准基于临床医生的评分标准,并采用一致性相关系数(ICC)来衡量LLM-jury与临床医生评分的一致性。此外,论文还对不同LLM的计算成本进行了估算,并进行了成本-性能分析,以帮助用户选择性价比最高的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeepSeek R1和o3-mini等高级推理模型在MedHELM基准测试中表现出色,胜率分别达到66%和64%。Claude 3.5 Sonnet以低40%的估计计算成本实现了与顶级模型相当的性能。LLM-jury评估方法与临床医生评分达成良好的一致性(ICC = 0.47),超过了临床医生之间的一致性(ICC = 0.43)以及ROUGE-L(0.36)和BERTScore-F1(0.44)等自动基线。
🎯 应用场景
MedHELM框架可用于指导医学领域大语言模型的开发和应用。它可以帮助开发者更好地了解模型的优势和不足,从而有针对性地进行改进。同时,该框架也可以帮助医疗机构选择合适的LLM,以支持临床决策、患者沟通、医学研究等多种应用场景。未来,MedHELM有望成为医学领域LLM评估的标准工具,促进LLM在医疗领域的安全、有效应用。
📄 摘要(原文)
While large language models (LLMs) achieve near-perfect scores on medical licensing exams, these evaluations inadequately reflect the complexity and diversity of real-world clinical practice. We introduce MedHELM, an extensible evaluation framework for assessing LLM performance for medical tasks with three key contributions. First, a clinician-validated taxonomy spanning 5 categories, 22 subcategories, and 121 tasks developed with 29 clinicians. Second, a comprehensive benchmark suite comprising 35 benchmarks (17 existing, 18 newly formulated) providing complete coverage of all categories and subcategories in the taxonomy. Third, a systematic comparison of LLMs with improved evaluation methods (using an LLM-jury) and a cost-performance analysis. Evaluation of 9 frontier LLMs, using the 35 benchmarks, revealed significant performance variation. Advanced reasoning models (DeepSeek R1: 66% win-rate; o3-mini: 64% win-rate) demonstrated superior performance, though Claude 3.5 Sonnet achieved comparable results at 40% lower estimated computational cost. On a normalized accuracy scale (0-1), most models performed strongly in Clinical Note Generation (0.73-0.85) and Patient Communication & Education (0.78-0.83), moderately in Medical Research Assistance (0.65-0.75), and generally lower in Clinical Decision Support (0.56-0.72) and Administration & Workflow (0.53-0.63). Our LLM-jury evaluation method achieved good agreement with clinician ratings (ICC = 0.47), surpassing both average clinician-clinician agreement (ICC = 0.43) and automated baselines including ROUGE-L (0.36) and BERTScore-F1 (0.44). Claude 3.5 Sonnet achieved comparable performance to top models at lower estimated cost. These findings highlight the importance of real-world, task-specific evaluation for medical use of LLMs and provides an open source framework to enable this.