HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats

作者: Rebecca Soskin Hicks, Mikhail Trofimov, Dominick Lim, Rahul K. Arora, Foivos Tsimpourlas, Preston Bowman, Michael Sharman, Chi Tong, Kavin Karthik, Arnav Dugar, Akshay Jagadeesh, Khaled Saab, Johannes Heidecke, Ashley Alexander, Nate Gross, Karan Singhal

分类: cs.CL

发布日期: 2026-04-30

备注: Data link in paper; Blog: https://openai.com/index/making-chatgpt-better-for-clinicians/

💡 一句话要点

HealthBench Professional：评估大型语言模型在真实临床医生对话中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗AI 临床应用 基准测试 医生评估

📋 核心要点

现有方法缺乏对大型语言模型在真实临床场景下，特别是医生与AI模型交互中的表现进行充分评估。
HealthBench Professional构建了一个开放基准，包含护理咨询、文档撰写和医学研究等真实临床用例，并由医生进行评分。
实验结果表明，ChatGPT for Clinicians中的GPT-5.4模型在HealthBench Professional基准测试中优于其他模型和人类医生。

📝 摘要（中文）

数百万临床医生使用ChatGPT来辅助临床护理，但对模型-临床医生对话中最常见用例的评估有限。我们推出了HealthBench Professional，这是一个开放的基准，用于评估大型语言模型在临床医生工作中带给ChatGPT的真实任务上的表现。该基准围绕临床实践中的三个常见用例组织：护理咨询、写作和文档记录以及医学研究。每个示例都包含医生撰写的与ChatGPT for Clinicians的对话，并通过由三名或更多医生在三个阶段编写和迭代裁定的评分标准进行评分。HealthBench Professional示例经过精心挑选，以保证质量、代表性和对OpenAI当前前沿模型的难度，从而能够持续衡量进展。相对于15,079个候选示例池，最近OpenAI模型的困难示例丰富了约3.5倍。此外，大约三分之一的示例涉及医生对模型进行有意的对抗性测试。作为一个强大的基线，我们还收集了所有任务的人类医生响应（不限时间，专家匹配，网络访问）。最佳评分系统，ChatGPT for Clinicians中的GPT-5.4，优于基础GPT-5.4、所有其他模型和人类医生。我们希望HealthBench Professional为医疗保健AI社区提供一种衡量前沿模型在真实临床任务中进展的手段，并构建临床医生可以信任的系统来改善护理。

🔬 方法详解

问题定义：现有的大型语言模型在医疗领域的应用日益广泛，但缺乏针对临床医生实际使用场景的全面评估。以往的评估方法可能无法充分反映模型在处理真实临床任务时的能力，尤其是在模型与临床医生进行交互对话时。因此，需要一个更贴近实际、更具挑战性的基准来评估模型在医疗领域的表现。

核心思路：HealthBench Professional的核心思路是构建一个基于真实临床医生使用场景的基准测试集，并采用医生主导的评分体系来评估大型语言模型在处理这些任务时的表现。通过模拟医生与AI模型的对话，并由医生专家进行评估，可以更准确地了解模型在实际应用中的优势和不足。

技术框架：HealthBench Professional基准测试集包含三个主要模块：护理咨询、写作和文档记录以及医学研究。每个模块都包含医生与ChatGPT for Clinicians的真实对话示例。这些示例经过精心挑选，以保证质量、代表性和难度。此外，基准测试还包括医生对模型的对抗性测试，以评估模型的鲁棒性。为了进行评估，HealthBench Professional采用医生编写和迭代裁定的评分标准。同时，收集了人类医生对所有任务的响应作为基线。

关键创新：HealthBench Professional的关键创新在于其真实性和专业性。它基于真实的临床医生使用场景，并由医生专家进行评估，从而更准确地反映了模型在实际应用中的表现。此外，该基准测试还包含了对抗性测试，可以评估模型的鲁棒性。

关键设计：HealthBench Professional的关键设计包括：1) 示例选择：精心挑选示例，保证质量、代表性和难度；2) 评分标准：由医生编写和迭代裁定的评分标准，保证评估的专业性和准确性；3) 对抗性测试：评估模型的鲁棒性；4) 人类基线：收集人类医生对所有任务的响应作为基线，用于比较模型和人类的表现。

🖼️ 关键图片

📊 实验亮点

HealthBench Professional基准测试表明，ChatGPT for Clinicians中的GPT-5.4模型在真实临床任务中表现出色，优于基础GPT-5.4和其他模型，甚至超越了人类医生。该模型在护理咨询、文档撰写和医学研究等任务中均取得了优异的成绩，证明了大型语言模型在医疗领域的巨大潜力。

🎯 应用场景

HealthBench Professional可用于评估和比较不同大型语言模型在医疗领域的表现，帮助开发者改进模型性能，提高模型在临床实践中的可靠性和实用性。该基准测试还可以促进医疗AI领域的研究，推动开发更智能、更值得信赖的医疗AI系统，最终改善患者护理。

📄 摘要（原文）

Millions of clinicians use ChatGPT to support clinical care, but evaluations of the most common use cases in model-clinician conversations are limited. We introduce HealthBench Professional, an open benchmark for evaluating large language models on real tasks that clinicians bring to ChatGPT in the course of their work. The benchmark is organized around three common use cases central to clinical practice: care consult, writing and documentation, and medical research. Each example includes a physician-authored conversation with ChatGPT for Clinicians and is scored via rubrics written and iteratively adjudicated by three or more physicians across three phases. HealthBench Professional examples were carefully selected for quality, representativeness, and difficulty for OpenAI's current frontier models, to enable continued measurement of progress. Difficult examples for recent OpenAI models were enriched by roughly 3.5 times relative to the candidate pool of 15,079 examples. Additionally, about one-third of examples involve physicians conducting deliberate adversarial testing of models. As a strong baseline, we also collected human physician responses for all tasks (unbounded time, specialist-matched, web access). The best scoring system, GPT-5.4 in ChatGPT for Clinicians, outperforms base GPT-5.4, all other models, and human physicians. We hope HealthBench Professional provides the healthcare AI community a measure to track frontier model progress in real-world clinical tasks and build systems that clinicians can trust to improve care.

HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理