PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models

📄 arXiv: 2412.06287v3 📥 PDF

作者: Qian Zhang, Panfeng Chen, Jiali Li, Linkun Feng, Shuyu Liu, Heng Zhao, Mei Chen, Hui Li, Yanhao Wang

分类: cs.CL

发布日期: 2024-12-09 (更新: 2025-02-28)

备注: 21 pages, 12 figures

DOI: 10.1007/s11704-025-41345-w

🔗 代码/项目: GITHUB


💡 一句话要点

构建PediaBench中文儿科数据集,用于评估大型语言模型在儿科问答任务中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 儿科数据集 问答系统 中文医学 基准测试

📋 核心要点

  1. 现有医学问答数据集缺乏儿科领域的针对性,且多为客观题,无法全面评估LLM在儿科领域的问答能力。
  2. PediaBench数据集包含客观题和主观题,覆盖12个儿科疾病组,并采用综合评分标准评估LLM的指令遵循、知识理解和临床案例分析能力。
  3. 通过对20个LLM的实验,验证了PediaBench的有效性,并分析了LLM在中文儿科问答中的局限性,为后续改进提供依据。

📝 摘要(中文)

医学领域的大型语言模型(LLMs)的出现,迫切需要标准数据集来评估其问答(QA)性能。尽管已经有一些医学QA的基准数据集,但它们要么涵盖不同科室的常识,要么专门针对其他科室而非儿科。此外,其中一些数据集仅限于客观题,无法衡量LLM的生成能力。因此,它们无法全面评估LLM在儿科领域的QA能力。为了填补这一空白,我们构建了PediaBench,这是第一个用于LLM评估的中文儿科数据集。具体来说,它包含4,117个客观题和1,632个主观题,涵盖12个儿科疾病组。它采用基于不同难度级别的综合评分标准,以彻底评估LLM在指令遵循、知识理解、临床案例分析等方面的能力。最后,我们通过对20个开源和商业LLM进行的大量实验验证了PediaBench的有效性。通过对实验结果的深入分析,我们深入了解了LLM在中文语境下回答儿科问题的能力,突出了它们的局限性,以便进一步改进。我们的代码和数据发布在https://github.com/ACMISLab/PediaBench。

🔬 方法详解

问题定义:现有医学问答数据集在儿科领域存在覆盖不足的问题,并且现有数据集主要集中于客观题,无法充分评估LLM在处理复杂临床案例和生成式回答方面的能力。因此,需要一个专门针对中文儿科场景,同时包含客观题和主观题的数据集,以更全面地评估LLM的性能。

核心思路:构建一个高质量的中文儿科问答数据集,该数据集不仅包含客观题,还包含需要LLM进行推理和生成的开放式主观题。通过设计综合的评分标准,能够细粒度地评估LLM在不同难度级别和不同能力方面的表现。

技术框架:PediaBench数据集的构建主要包括以下几个阶段:1) 数据收集:从儿科相关的医学资源中收集问题和答案。2) 数据标注:由医学专家对问题进行标注,包括疾病分类、难度级别等。3) 数据清洗:对收集到的数据进行清洗和过滤,去除不准确或不相关的信息。4) 数据划分:将数据集划分为训练集、验证集和测试集。5) 评分标准设计:设计综合的评分标准,用于评估LLM在不同方面的性能。

关键创新:PediaBench是第一个专门针对中文儿科领域的大型语言模型评估数据集。它不仅包含客观题,还包含主观题,能够更全面地评估LLM在儿科问答任务中的性能。此外,该数据集还采用了综合的评分标准,能够细粒度地评估LLM在不同难度级别和不同能力方面的表现。

关键设计:PediaBench数据集包含4,117个客观题和1,632个主观题,涵盖12个儿科疾病组。评分标准包括准确率、召回率、F1值等指标,并根据问题的难度级别进行加权。对于主观题,采用人工评估的方式,评估LLM生成的答案的质量,包括相关性、完整性和流畅性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在对20个LLM的实验中,PediaBench能够有效区分不同模型的性能差异,并揭示它们在中文儿科问答方面的局限性。实验结果表明,一些模型在客观题上表现良好,但在主观题上表现欠佳,表明它们在知识推理和生成能力方面存在不足。该数据集为进一步改进LLM在儿科领域的应用提供了重要的参考依据。

🎯 应用场景

PediaBench数据集可用于评估和比较不同LLM在中文儿科问答任务中的性能,帮助研究人员开发更有效的儿科医疗AI应用。该数据集还可以用于训练和微调LLM,提高其在儿科领域的知识理解和问答能力,辅助医生进行诊断和治疗,并为患者提供更准确的医疗信息。

📄 摘要(原文)

The emergence of Large Language Models (LLMs) in the medical domain has stressed a compelling need for standard datasets to evaluate their question-answering (QA) performance. Although there have been several benchmark datasets for medical QA, they either cover common knowledge across different departments or are specific to another department rather than pediatrics. Moreover, some of them are limited to objective questions and do not measure the generation capacity of LLMs. Therefore, they cannot comprehensively assess the QA ability of LLMs in pediatrics. To fill this gap, we construct PediaBench, the first Chinese pediatric dataset for LLM evaluation. Specifically, it contains 4,117 objective questions and 1,632 subjective questions spanning 12 pediatric disease groups. It adopts an integrated scoring criterion based on different difficulty levels to thoroughly assess the proficiency of an LLM in instruction following, knowledge understanding, clinical case analysis, etc. Finally, we validate the effectiveness of PediaBench with extensive experiments on 20 open-source and commercial LLMs. Through an in-depth analysis of experimental results, we offer insights into the ability of LLMs to answer pediatric questions in the Chinese context, highlighting their limitations for further improvements. Our code and data are published at https://github.com/ACMISLab/PediaBench.