CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios

📄 arXiv: 2410.03502v1 📥 PDF

作者: Zetian Ouyang, Yishuai Qiu, Linlin Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, Liang He

分类: cs.CL

发布日期: 2024-10-04

备注: accepted by ENMLP-2024


💡 一句话要点

提出CliMedBench:大规模中文医疗LLM评测基准,聚焦临床场景

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学大型语言模型 中文基准 临床场景 医学推理 事实一致性

📋 核心要点

  1. 现有医学LLM缺乏统一、全面的中文评测基准,难以准确评估其在临床场景下的能力。
  2. CliMedBench构建了包含14个核心临床场景的大规模中文基准,覆盖7个关键维度,问题源于真实医疗数据。
  3. 实验表明,中文医疗LLM在医学推理和事实一致性方面表现不足,通用LLM在医疗领域具有潜力。

📝 摘要(中文)

随着大型语言模型(LLM)在各个领域的普及,临床医学场景尤其需要统一的评估标准,以便对模型进行全面彻底的检查。我们提出了CliMedBench,这是一个综合性的基准,包含14个专家指导的核心临床场景,专门用于评估LLM在7个关键维度上的医疗能力。它包含33735个问题,这些问题来源于顶级三甲医院的真实医疗报告和真实的考试练习。该基准的可靠性已通过多种方式得到证实。对现有LLM的后续实验得出了以下发现:(i)中文医疗LLM在该基准上的表现不佳,尤其是在医学推理和事实一致性至关重要的情况下,这突显了在临床知识和诊断准确性方面取得进展的必要性。(ii)一些通用领域的LLM在医疗诊所中表现出巨大的潜力,而许多医疗LLM的有限输入能力阻碍了它们的实际应用。这些发现揭示了LLM在临床场景中的优势和局限性,并为医学研究提供了重要的见解。

🔬 方法详解

问题定义:现有医学大型语言模型(LLM)的评估缺乏一个大规模、高质量、面向中文临床场景的统一基准。这导致难以全面评估模型在实际医疗应用中的能力,尤其是在医学推理和事实一致性方面。现有方法要么是英文基准的简单翻译,要么数据量不足,无法充分反映真实临床环境的复杂性。

核心思路:CliMedBench的核心思路是构建一个源于真实临床数据的、由专家指导的、多维度的中文医学LLM评估基准。通过覆盖多种临床场景和关键能力维度,全面评估LLM在医学领域的表现,并为未来的模型改进提供指导。该基准旨在弥合现有评估方法与实际临床应用之间的差距。

技术框架:CliMedBench的构建主要包含以下几个阶段: 1. 临床场景定义:与医学专家合作,确定14个核心临床场景,涵盖常见疾病和临床任务。 2. 维度设计:定义7个关键能力维度,包括医学知识、诊断推理、治疗建议、报告生成等。 3. 数据收集与标注:从顶级三甲医院收集真实医疗报告和考试练习,并由医学专家进行标注和审核。 4. 基准构建:将收集到的数据整理成统一的格式,构建包含33735个问题的CliMedBench基准。

关键创新:CliMedBench的关键创新在于其真实性和全面性。它使用真实临床数据,并由医学专家进行指导,确保了基准的可靠性和代表性。此外,该基准覆盖了多个临床场景和关键能力维度,能够全面评估LLM在医学领域的表现。与现有基准相比,CliMedBench更贴近实际临床应用,能够更准确地反映LLM的真实能力。

关键设计:CliMedBench的关键设计包括: * 场景选择:选择覆盖广泛疾病类型和临床任务的场景,确保基准的通用性。 * 维度设计:定义能够全面评估LLM医学能力的维度,例如医学知识、推理能力、报告生成能力等。 * 数据质量控制:采用严格的数据标注和审核流程,确保数据的准确性和一致性。 * 评估指标:使用多种评估指标,包括准确率、召回率、F1值等,全面评估LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,中文医疗LLM在CliMedBench上的表现普遍低于通用LLM,尤其是在医学推理和事实一致性方面。这表明中文医疗LLM在临床知识和推理能力方面仍有很大的提升空间。同时,一些通用LLM在医疗领域表现出潜力,但其医学知识的深度和专业性仍有待提高。该基准为医学LLM的研究和开发提供了重要的参考。

🎯 应用场景

CliMedBench可用于评估和比较不同医学LLM在临床场景下的表现,指导模型改进和优化。它还可以用于开发智能诊断、治疗建议、病历生成等医疗应用,辅助医生进行临床决策,提高医疗效率和质量。未来,该基准可以扩展到更多临床场景和语言,促进医学人工智能的发展。

📄 摘要(原文)

With the proliferation of Large Language Models (LLMs) in diverse domains, there is a particular need for unified evaluation standards in clinical medical scenarios, where models need to be examined very thoroughly. We present CliMedBench, a comprehensive benchmark with 14 expert-guided core clinical scenarios specifically designed to assess the medical ability of LLMs across 7 pivot dimensions. It comprises 33,735 questions derived from real-world medical reports of top-tier tertiary hospitals and authentic examination exercises. The reliability of this benchmark has been confirmed in several ways. Subsequent experiments with existing LLMs have led to the following findings: (i) Chinese medical LLMs underperform on this benchmark, especially where medical reasoning and factual consistency are vital, underscoring the need for advances in clinical knowledge and diagnostic accuracy. (ii) Several general-domain LLMs demonstrate substantial potential in medical clinics, while the limited input capacity of many medical LLMs hinders their practical use. These findings reveal both the strengths and limitations of LLMs in clinical scenarios and offer critical insights for medical research.