TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models

📄 arXiv: 2406.04941v1 📥 PDF

作者: Ping Yu, Kaitao Song, Fengchen He, Ming Chen, Jianfeng Lu

分类: cs.CL

发布日期: 2024-06-07


💡 一句话要点

构建TCMD:一个用于评估大型语言模型的中医QA数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中医 大型语言模型 问答系统 医学数据集 知识评估

📋 核心要点

  1. 现有医学数据集的匮乏限制了医学领域大型语言模型(LLM)的评估和发展,缺乏全面的基准。
  2. TCMD数据集通过收集大量中医考试相关的问答数据,并进行医学科目标注,为评估LLM在中医领域的表现提供支持。
  3. 实验评估了通用LLM和医学专用LLM在TCMD上的性能,并分析了其鲁棒性,揭示了现有LLM的不足。

📝 摘要(中文)

本文介绍了一个新的医学问答(QA)数据集,名为TCMD,其中包含大量用于解决中医考试任务的手动指令。TCMD收集了跨多个领域的庞大问题集,并标注了医学科目,从而能够全面评估大型语言模型(LLM)在中医领域的表现。对各种通用LLM和医学领域专用LLM进行了广泛的评估。此外,通过引入随机性,分析了当前LLM在解决TCMD QA任务中的鲁棒性。实验结果的不一致性也揭示了当前LLM在解决QA任务中的不足。我们希望该数据集能够进一步促进LLM在中医领域的发展。

🔬 方法详解

问题定义:论文旨在解决缺乏全面、专业的中医领域问答数据集,导致无法有效评估和提升大型语言模型(LLM)在中医知识理解和应用能力的问题。现有医学数据集规模有限,且缺乏对中医知识的针对性覆盖,无法满足评估LLM在中医领域的专业能力的需求。

核心思路:论文的核心思路是构建一个大规模、高质量的中医问答数据集TCMD,该数据集包含大量中医考试相关的问答数据,并进行细粒度的医学科目标注。通过该数据集,可以全面评估LLM在中医领域的知识掌握程度、推理能力和问题解决能力。

技术框架:TCMD数据集的构建流程主要包括以下几个阶段:1) 数据收集:从各种中医考试和相关资源中收集大量问答数据。2) 数据清洗:对收集到的数据进行清洗和过滤,去除噪声和错误数据。3) 数据标注:对每个问题进行医学科目标注,以便进行细粒度的评估。4) 数据划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。

关键创新:TCMD数据集的关键创新在于其大规模、高质量和专业性。与现有医学数据集相比,TCMD数据集专门针对中医领域,包含大量中医考试相关的问答数据,并进行细粒度的医学科目标注。这使得TCMD数据集能够更全面、更准确地评估LLM在中医领域的知识掌握程度和应用能力。

关键设计:TCMD数据集的关键设计包括:1) 问答数据的多样性:数据集包含各种类型的中医问题,如概念理解、诊断推理、处方选择等。2) 医学科目标注的细粒度:数据集对每个问题进行细粒度的医学科目标注,如中医基础理论、中医诊断学、中药学等。3) 数据集的规模:数据集包含大量问答数据,以保证评估的可靠性和泛化能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文构建了包含大量中医考试题目的TCMD数据集,并评估了多个通用和医学领域LLM。实验结果表明,现有LLM在解决TCMD QA任务时表现出不一致性,揭示了它们在中医知识理解和推理方面的不足。TCMD数据集为未来LLM在中医领域的改进提供了宝贵的资源和评估基准。

🎯 应用场景

TCMD数据集可用于训练和评估大型语言模型在中医领域的应用,例如辅助中医诊断、提供中医知识问答、生成中医处方建议等。该数据集有助于推动人工智能在中医领域的应用,提高中医服务的效率和质量,并促进中医知识的传承和发展。未来,可以进一步扩展TCMD数据集,增加更多类型的中医问题和更细粒度的医学科目标注。

📄 摘要(原文)

The recently unprecedented advancements in Large Language Models (LLMs) have propelled the medical community by establishing advanced medical-domain models. However, due to the limited collection of medical datasets, there are only a few comprehensive benchmarks available to gauge progress in this area. In this paper, we introduce a new medical question-answering (QA) dataset that contains massive manual instruction for solving Traditional Chinese Medicine examination tasks, called TCMD. Specifically, our TCMD collects massive questions across diverse domains with their annotated medical subjects and thus supports us in comprehensively assessing the capability of LLMs in the TCM domain. Extensive evaluation of various general LLMs and medical-domain-specific LLMs is conducted. Moreover, we also analyze the robustness of current LLMs in solving TCM QA tasks by introducing randomness. The inconsistency of the experimental results also reveals the shortcomings of current LLMs in solving QA tasks. We also expect that our dataset can further facilitate the development of LLMs in the TCM area.