HealthBench: Evaluating Large Language Models Towards Improved Human Health
作者: Rahul K. Arora, Jason Wei, Rebecca Soskin Hicks, Preston Bowman, Joaquin Quiñonero-Candela, Foivos Tsimpourlas, Michael Sharman, Meghan Shah, Andrea Vallone, Alex Beutel, Johannes Heidecke, Karan Singhal
分类: cs.CL
发布日期: 2025-05-13
备注: Blog: https://openai.com/index/healthbench/ Code: https://github.com/openai/simple-evals
💡 一句话要点
HealthBench:用于评估大型语言模型在医疗健康领域的性能与安全性的基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医疗健康 基准测试 性能评估 安全性评估
📋 核心要点
- 现有医疗健康领域的大型语言模型评估缺乏真实场景下的开放式对话评估,难以全面衡量模型的性能和安全性。
- HealthBench通过构建包含5000个多轮对话的基准测试,并由医生制定评估标准,实现了对模型在真实医疗场景下的全面评估。
- 实验结果表明,大型语言模型在HealthBench上的性能持续提升,尤其是在小型模型上,GPT-4.1 nano在性能上超越了GPT-4o,且成本更低。
📝 摘要(中文)
本文提出了HealthBench,一个开源基准测试,用于衡量大型语言模型在医疗健康领域的性能和安全性。HealthBench包含5000个模型与个人用户或医疗专业人员之间的多轮对话。通过262名医生创建的特定于对话的评估标准来评估响应。与之前的多项选择或简答题基准测试不同,HealthBench通过涵盖多个健康背景(例如,紧急情况、临床数据转换、全球健康)和行为维度(例如,准确性、指令遵循、沟通)的48562个独特的评估标准,实现了现实的、开放式的评估。过去两年HealthBench的性能反映了最初的稳步进展(GPT-3.5 Turbo的16%与GPT-4o的32%相比)以及最近更快的改进(o3得分60%)。较小的模型尤其得到了改进:GPT-4.1 nano优于GPT-4o,且成本降低了25倍。此外,我们还发布了两个HealthBench变体:HealthBench Consensus,其中包括通过医生共识验证的模型行为的34个特别重要的维度;以及HealthBench Hard,当前最高得分是32%。我们希望HealthBench能够为模型开发和有益于人类健康的应用奠定基础。
🔬 方法详解
问题定义:现有的大型语言模型在医疗健康领域的评估主要依赖于多项选择题或简答题,无法模拟真实场景下的复杂对话交互。这些评估方法难以全面衡量模型在准确性、指令遵循、沟通等多个维度上的表现,也难以评估模型在紧急情况、临床数据转换等不同健康背景下的适应性。因此,需要一种更贴近真实场景、更全面的评估方法来推动医疗健康领域大型语言模型的发展。
核心思路:HealthBench的核心思路是构建一个包含多轮对话的基准测试,模拟用户或医疗专业人员与模型之间的真实交互。通过医生制定的特定于对话的评估标准,对模型的响应进行全面评估,从而更准确地衡量模型在医疗健康领域的性能和安全性。这种方法能够捕捉模型在不同健康背景和行为维度上的细微差异,为模型改进提供更有效的反馈。
技术框架:HealthBench的整体框架包括以下几个主要组成部分:1) 构建包含5000个多轮对话的数据集,涵盖紧急情况、临床数据转换、全球健康等多个健康背景。2) 由262名医生为每个对话制定特定的评估标准,涵盖准确性、指令遵循、沟通等多个行为维度。3) 使用这些评估标准对模型的响应进行评分,生成HealthBench的性能指标。4) 发布HealthBench Consensus和HealthBench Hard两个变体,分别关注模型行为的关键维度和更具挑战性的评估场景。
关键创新:HealthBench的关键创新在于其评估方式的真实性和全面性。与以往的评估方法相比,HealthBench通过多轮对话模拟真实交互,并通过医生制定的评估标准对模型的响应进行细致评估。这种方法能够更准确地衡量模型在医疗健康领域的性能和安全性,为模型改进提供更有效的指导。
关键设计:HealthBench的关键设计包括:1) 数据集的构建,确保涵盖多个健康背景和用户类型。2) 评估标准的制定,确保涵盖多个行为维度,并由医生进行验证。3) 性能指标的计算,采用能够反映模型整体性能和特定维度性能的指标。4) HealthBench Consensus和HealthBench Hard两个变体的设计,分别关注模型行为的关键维度和更具挑战性的评估场景。
🖼️ 关键图片
📊 实验亮点
HealthBench的实验结果表明,大型语言模型在医疗健康领域的性能持续提升。GPT-4o在HealthBench上的得分达到32%,相比GPT-3.5 Turbo的16%有显著提升。更重要的是,小型模型也取得了显著进展,GPT-4.1 nano在性能上超越了GPT-4o,且成本降低了25倍。HealthBench Consensus和HealthBench Hard两个变体的发布,为模型评估提供了更全面的视角。
🎯 应用场景
HealthBench可用于评估和改进大型语言模型在医疗健康领域的应用,例如辅助诊断、患者咨询、临床数据分析等。通过HealthBench的评估,可以筛选出更安全、更可靠的模型,从而提高医疗服务的质量和效率。此外,HealthBench还可以促进医疗健康领域大型语言模型的研究和发展,推动人工智能在医疗领域的广泛应用。
📄 摘要(原文)
We present HealthBench, an open-source benchmark measuring the performance and safety of large language models in healthcare. HealthBench consists of 5,000 multi-turn conversations between a model and an individual user or healthcare professional. Responses are evaluated using conversation-specific rubrics created by 262 physicians. Unlike previous multiple-choice or short-answer benchmarks, HealthBench enables realistic, open-ended evaluation through 48,562 unique rubric criteria spanning several health contexts (e.g., emergencies, transforming clinical data, global health) and behavioral dimensions (e.g., accuracy, instruction following, communication). HealthBench performance over the last two years reflects steady initial progress (compare GPT-3.5 Turbo's 16% to GPT-4o's 32%) and more rapid recent improvements (o3 scores 60%). Smaller models have especially improved: GPT-4.1 nano outperforms GPT-4o and is 25 times cheaper. We additionally release two HealthBench variations: HealthBench Consensus, which includes 34 particularly important dimensions of model behavior validated via physician consensus, and HealthBench Hard, where the current top score is 32%. We hope that HealthBench grounds progress towards model development and applications that benefit human health.